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Beschreibung 

Aufgabe der Erfindung und Anwendungsbeieiche 

5 [0001] RDY/ACK/REJ-Protokoll und Deadlock-FreiheiL 

[0002] Das aus PACTIO bekannle RDY/ACK/REF Protokoll kann nichl uber mehrere Register gepipelined werden. 
[0003] Zur Erhohung der Gnindfrequenz einer VPU sind mehrere Registerstufen jedoch zwingend notwendig. Da- 
durch ergibl sich eine unakzeptable Veizogerung bis zum Eintreffen der Quitlierung der Konfigurationsdalen bei dem 
CT. 

10 [0004] Es weiden im folgenden zwei grundlegende Losungen fur dieses Ptoblem aufgezeigl: 

1. Lookup-Tabellen 

[0005] In eine CT oder 2602 interne Tabelle wird der Zustand der einzelnen PAEs verwalteL D. h. fur jede PAE exisi- 
15 ten ein Eintrag, der anzeigt ob die PAE unkonfigurierl werden kann. 

a) Jede PAE sendet ein Statussignal an die Tabe[le wenn sich ihr Zustand von "nicht umkonfigurierbar" auf "konfi- 
gurierbar" andert. Dieses Statussignat kann gepipehned gesendet werden. 

b) Ebenf ails ist es moglich, daB ein Statussignal fur eine Gruppe von PAEs gesendet wird, das anzeigt, daB sich der 
20 Zustand fur die gesamte Gruppe geandert hat. Uber eine Liste werden samtliche E^Es die zur Gruppe gehoren aus- 

gewahlt und der Zustand fur jede einzelne PAE in der Tabelle geandert. 

[0006] Zur Ubeipriifung des Zustandes einer PAE wird 

25 a) vor dem Ausfuhren der pa>Befehle wird jede darin enthaltene PAE gepriifl, indera fiir jede PAE ein Lookup in 

der Tabelle durchgefiihrt wird. Eine nicht konfigurierbaie PAE fiihrt zu einem Abbruch, der pa-Befehl wird nicht 
ausgefuhrt; oder 

b) beim Absenden der Adiesse der Zid-PAE durch ein pa-Befehl wird die Lookuptabelle abgefragl und dement- 
sprechend ein ACK oder REJ generiert (dieser Ansatz entspricht dem herkommlichen RDY/ACK/REJ >^rfahren). 

30 

2. Auswerten der ACK/REJ Quittierung mit Latency 

[0007] Das RDY-Signal wird mit den Konfigurationsdaten iiber mehrere Pipeline-Stufen an die Ziel-PAE gesendet. 
35 Die Konfigurationsdaten werden nicht sofort im entsprechenden Konfigurationsregister gespeichert, sondem in ein tem- 
porares Register geschrieben. Die PAE generiert die ACK/REJ-Quittierung gemaB des intern verwalteten Umkonfigura- 
tionsstalus (vgl. PACTIO). Die Quittierung wird ebenfalls gepipehned an die CT zuriickgesendet. In der CT existiert ein 
Zahler der bei jedem eintreifenden ACK um eins erhoht wird. In einem separaten Register wild gespeichert, ob ein REJ 
auftrat wurde. 

40 [0008] Nachdem der pa-Befehl abgeschlossen wurde wild nach einer Latency von n-Takten der Zahler und das Regi- 
ster ausgewertet. Ist in dem Register ein REJ vermarkt, muB der pa-Befehl nochmals ausgefiilirt werden. Dazu wird der 
Zahlerstand entweder in den OfFsetspeicher kopiert (pabmm) oder in das angegebene Register gespeichert (pabmr). Der 
Wert reprasentiert das Konfigurationswort, das mit einem REJ-quittiert wurde und nochmals ausgefuhrt werden muB. 
[0009] Terminiert der pa-Befehl ohne Auflreten eines REJ wird ein Signal STORE an die beteiligten PAEs gesendet. 

45 Daraufhin werden die Konfigurationsworter von dem temporaren Register in das entsprechende Konfigurationsregister 
geschrieben und die Datenoperationen werden gestartet. 

[(M)10] IST DAS SAUBER? DEADLOCK, was ist mit PAEs, die nach dem REJ aufgrund der Latency noch Daten ab- 
bekamen?! 

[0011] Keine OK-Leitung verwenden, sondern ein Register bei den entsprechenden PAEs einfuehren. 

50 

Wave-Reconfiguration 

[0012] Durch eine geeignete Hardwarearchitektur (vgl. Fig. 10/11) ist es m5glich mehrere Module zu uberlappen. 
D. h. mehrere Module sind gleichzeitig in den PAEs vorkonfiguriert und es kann mit minimaiem Zeitaufwand zwischen 
55 den Konfigurationen umgeschaltet werden, so daB aus einer Meage von mehieren Konfigurationen pro E\£ immer ge- 
nau eine Konfiguration aktiviert ist. 

[0013] Wesentlich ist, daB dabei in einer Menge von PAEs in die ein Modul A und B vorkonfiguriert ist, ein Teil der 
Menge mit einem Teil von A und eine anderer Teil der Menge gleichzeitig mit einem Teil B aktiviert sein kann, Dabei ist 
die Trennung der beiden Teile exakl durch die PAE gegeben, in der der Umschaltezustand zwischen A und B auftritt Das 
60 bedeutet, daB ausgehend von einem bestimmten Zeitpunkt bei alien PAEs bei denen vor diesem Zeitpunkt A zur Ausfuh- 
rung aktiviert war B aktiviert ist und bei alien anderen PAEs nach diesem Zeitpunkt immer noch auf A aktiviert ist. Mit 
steigender Zeit wird bei immer mehr PAEs B aktiviert 

[0014] Die Umschaltung erfolgt aufgrund von bestimmten Daten, Zustanden die sich aus der Berechnung der Daten er- 
geben oder aufgrund beliebiger anderer Ereignisse, die beispielsweise von extern oder der CT generiert werden. 
65 [0015] Das bewirkt, daB dird^t nach Verarbeitung eines Datenpaketes zu einer anderen Konfiguration umgeschaltet 
werden kann. Gleichzeitig/Altemativ kann ein Signal (RECONFIG-TRIGGER) an den CT gesendet werden, das das 
Vorladen von neuen Konfigurationen durch den CT bewirkt. Das Vorladen kann dabd auf anderen von der aktuellen Da- 
tenverarbeitung abhSngigen oder unabhangigen PAEs erfolgen. Durch eioe Entkopplung der aktiven Konfiguraticm von 
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den zur Unkonfiguration zur Verfiigung stehenden Konfigurationen (vgL Fig. 10/1 1) konnen auch gerade arbeitende (ak- 
tive) PAEs, insbesondere auch die PAE, die den RECONFIG-TRIGGER erzeugte, mit neuen Konfigurationen geladen 
werden. Dies ermoglichl eine init der Datenverarbeitung uberlappende Konfiguralion. 

[0016] In Fig. 13 ist das Grundprinzip der Wave-Reconfiguration (WRC) dargestelll. Dabei wird von einer Reihe von 
PAEs (PAEl-9) ausgegangen, durch die die Dalen pipelineahnlich laufen. Es wird ausdrucklich darauf hingewiesen, daB 5 
WRC nicht auf Pipelines beschrankt ist und die Vemelzung und Gruppierung der PAEs jede beliebige Form annehmen 
kann. Die Darstellung wurde jedoch gewahlt urn ein einfaches Beispiel zum besseren Verstandnis zu zeigen. 
[0017] In Fig. 13a lauft ein Datenpaket in die PAEl. Die PAE besitzt 4 mogliche Konfigurationen (A, F, H, C), die 
durch eine geeignete Hardware (vgl. Fig, 10/11) wahlbar sind. Die Konfiguration F ist in in PAEl fur das aktuelle Da- 
tenpaket aktiviert (schraffierl dargestelll). 10 
[0018] Im nachsten 1^ lauft das Datenpakt nach PAE2 und ein neues Datenpaket erscheint in PAEl . Auch in PAE2 ist 
F aktiv. Zusammen mit dem Datenpaket erscheint ein Ereignis (t 1) bei PAEL Das Ei^nis entsteht durch Eintreffen eines 
beliebigen Ereignisscs von aussen bei der PAE (z. B. eines Statusflags odcr TViggers) oder wird innerhalb der PAE durch 
die ausgefuhrte Berechnung genedert 

[0019] In Fig. 1 3c wird in PAEl aufgrund des Ereignisscs (| 1) die Konfiguration H aktiviert, gleichzeilig erscheint ein 15 
neues Ereignis (|2), das im nachsten Takt (Fig. 13d) die Aktivierung von Konfiguration A bewirkt. 
[0020] In Fig. 13e Uifft (t3) bei PAEl, die das Uberschreiben von F mit G bewirkt (Fig. 130- Durch das Eintreffen von 
(|4) wird G aktiviert (Fig. 13g). (t5) bewirkt das Laden von K anstelle von C (Fig. 13h, i) und (t6) ladt und startetF an- 
stelle von H (Fig. 13j). 

[0021] In den Fig. 13g*) bis 13j*) wird verdeutlicht, daB beim Durchlaufen einer Wave-Reconfiguration nicht alle 20 
PAEs nach demselben Muster arbeiten miissen. Wie eine PAE von einer Wave-Reconfiguration konfiguriert wird, ist 
prinzipiell abhangig von ihrer eigenen Konfiguration. Hier soil dargestelll werden, daB PAE4 bis PAE6 derart konfigu- 
riert sind, daB sie anders auf die Ereignisse reagieren, als die iibrigen PAEs. Beispielsweise wird in Fig* 13g*) aufgrund 
von Ereignis |2 nicht A sondem H aktiviert (vgl. Fig. 13g). Dasselbe gilt fur 13h*). Aufgrund von Ereignis f 3 wird in 
Fig. 13i*) nicht G geladen, sondem die Konfiguration F bleibt bestehen und A bleibt aktiviert. In Fig. 13j*) ist bei PAE7 25 
angedeutet, daB Ereignis 1 3 wieder das Laden von G auslosen wird. In PAE4, bewirkt das Ereignis ^4 das Aktivieren von 
F anslatt der Konfiguration G (vgl. Fig. 13j). 

[0022] In Fig. 13 bewegt sich eine Welle von Umkonfigurationen aufgrund von Ereignissen durch eine Menge von 
PAEs, die 2- oder mehrdimensional ausgestaltel sein kann. 

[0023] Es ist nicht zwingend notwendig, daB eine einmal staltfindende Umkonfiguration durch die gesamten FluB bin- 30 
weg stattfindel. Beispielsweise konnte die Umkonfiguration mit der Aktivierung von A aufgrund des Ereignisscs (|2) nur 
lokal in den PAEsl bis 3 und PAE7 stattfinden, wahrend in alien anderen PAEs weiterhin die Konfiguration H aktiviert 
bleibt. 

[0024] Mit anderen Worten: 

35 

a) Es ist moglich, daB ein Ereigniss nur lokal aufUitt und daher nur lokal eine Umaktivierung zur Folge hat, 

b) ein globales Ereignis, hat moglicherweise keine Auswirkung auf manche PAEs; abhangig vom ausgefuhrten Al- 
gorithmus. 

[(N)25] Bei den PAEs die nach (|2) weiterhin H aktiviert halten, kann selbstverstandiich das Eintreffen des Ereignisses 40 
(1 3) vollkommen andere Auswirkungen haben, (I) wie etwa das Aktivieren von C stau dem Laden von G, (ii) anderer- 
seits konnte (|3) auf diese PAEs auch gar kein^ EinfluB haben. 



Das Prozessormodell 



45 



[0026] Die in den folgenden Figuren gezeiglen Graphen bcsitzen als Grapbenknoten immer in Modul, wobei davon 
ausgegangen wird, daB mehrerc Module auf einen Ziclbaustein abgebildet werden konnen. Das heiBt, obwohl alle Mo- 
dule zeitlich voncinander unabhangig sind, wird nur bei den Modulen eine Umkonfiguration durchgefuhrt, und/oder ein 
Datenspeicher eingefugt, die mit einem vcrtikalen Suich und At markiert sind. Dicser Punkt wird Umkonfigurationszeit- 
punkt genannl. 50 
[0027] Der Umkonfigurationszeitpunkt ist abhangig von den bestimmten Daten oder den Zustanden die sich aus der 
Verarbeitung der bestimmten Daten ergeben. 
[0028] Das bedeutet zusanrnieofassend: 



1 . GroBe Module konnen an geeigneten Stellen partitioniert werden und in kleine zeitlich voneinander unabh^gige 55 
Module zerlegt werden, die optimal in das Array aus PAEs passen. 

2. Bei kleincn Modulen die gemcinsam auf einen Zielbaustein abgebildet werden konnen, wird auf die zcitliche 
Unabhangigkeit verzichteL Dadurch werden Konfigurationsschritte eingespart und die Datenverarbeitung bcschleu- 
nigt. 

3. Die Umkonfigurationszcitpunktc werden entsprechend der Ressourcen der Zielbausteine positioniert. Dadurch 60 
ist cine beliebige Skaliening der Graphenlangc gegeben. 

4. Module konnen iiberlagert konfiguriert werden. 

5. Die Umkonfiguration von Modulen wird durch die Daten selbst odo: dem Ergebnis der Verarbeitung der Daten 
gesteuert 

6. Die von den Modulen generierten Daten werden gespeichert und die zeitlich nachfolgenden Module lesen die 65 
Daten aus diesem Speicher aus und speichem die Eigebnisse wiederum in einen Speicher oder geben das Endeigeb- 

nis an die Peripherie aus. 
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Die Zustandsinformadonen des I^rozessormodells 

[0029] Zur Beslimmung der Zuslande innerhalb eines Graphen werden die Statusregister der einzelnen Zellen (PAEs) 
iiber ein zusatzlich zum Datenbus (0801) existierendes, frei rout- und segmentierbares Status>Bussystem (0802) alien an- 
5 deren Rechenwerken zur Verfugung gestellt (Fig. 8b). Das bedeutei, daB eine Zelle (PAE X) die Statusinformation einer 
andem Zelle (PAE Y) evaluieren kann und dementsprechend die Dalen verarbeilet. Um den Unterschied zu bestehenden 
Parallelrechnersystemen zu verdeutlichen, ist in Fig. 8a der Stand der Technik angegeben. Dabei ist ein Multiprozessor- 
system gezeigt, dessen Prozessoren iiber einen gemeinsamen Datenbus (0803) miteinander verbunden sind. Ein explizi- 
tes Bussystem fur den synchronen Austausch von Daten und Status existiert nicht. 

10 [0030] Mit andeien Worten ausgedruckt, siellt das Netzwerk der Stalussignale (0802) ein frei und geziell verteiltes Sta- 
tusregister eines einzelnen herkommlichen Prozessors (cxler mehreier Ptozessoren eines SMP-Computers) dan Der Sta- 
tus jeder einzelnen ALU (bzw. jedes einzelnen Prozessors) und insbesondere jede einzelne Information des Status steht 
jeweils dem oder den ALUs (Prozessoren) zur Verfiigung, die die Information benotigen. Dabei entsteht keine zusatzli- 
che Programm- oder Kommunikationslaufzeit (abgesehen voo den Signalllaufeeiten) um die Informationen zwischen 

15 den ALUs (Prozessoren) auszutauschen. 

[0031] AbschlieBend soli angemerkt werden, daB je nach Aufgabe sowohl der DatenfluBgraph, als auch der KontroU- 
fluBgraph entsprechend dem beschriebenen Verfahren behandelt werden kann. 

Virtual Machine Modell 

20 

[0032] Die Grundlagen der Datenverarbeitung mit VPU-Bausteinen sind entsprechend der vorheigehenden Abschnitte 
hauptsachlich datenfluBorientiert. Um sequentielle Programme mit ordentlicher Leislung abzuarbeiten, ist es jedoch not- 
wendig ein sequentielles Datenverarbeitungsmodell zur Verfugung zu haben. Dabei sind oftmals die Sequenzer in den 
einzeben PAEs nicht ausreichend. 
25 [0033] Die Architektur von VPUs ermoglidit jedoch grundsatzlich den Aufbau von beliebig komplexen Sequenzem 
aus einzelnra PAEs. 
[0034] Dasbedeuted: 

1. Es konnen komplexe Sequenzer konfiguriert werden, die exakt den Anforderungen des Algorithmus entspre- 
30 chen. 

2. Der DatenfluB kann durch entsprechende Konfiguration, exakt die Rechenschritte des Algorithmus reprasentie- 
ren. 

[0035] Dadurch kann eine VirtueUe Maschine auf VPUs implementiert werden, die insbesondere auch den sequentiel- 

35 len Anforderungen eines Algorithmus entspricht. 

[0036] Hauptvorteil der VPU-Architektur ist, daB ein Algorithmus durch einen Compiler so zerteilt werden kann, daB 
die DatenfluBteile extrahierl werden durch einen "optimalen" DatenfluB reprasentierl werden, indem ein angepafiter Da- 
tenfluB konfiguriert wird UND die sequentiellen Tfeile des Algorithmus durch einen "optimalen" Sequenz^ reprasentierl 
werden, indem ein angepaBter Sequenzer konfiguriert wird. Dabei konnen gleichzeitig mehrere Sequenzer und Daten- 

40 flusse auf einer VPU untergebracht werden, ausschlieBlich abhSngig von den zur Verfugung siehenden Ressourcen. 
[0037] Durch die groBe Anzahl an PAEs entstehen im Betrieb innerhalb einer VPU sehr viele lokalen Zustande. Bei 
Taskwechseln oder Unlerprogramm-Aufrufen (Interrupts) mussen diese Zustande gesicherl werden (vgl. PUSH/POP bei 
Standardprozessoren). Dies ist jedoch aufgrund der Menge an Zustanden nicht sinnvoll moglich. 
[0038] Um die Zustande auf eine handhabbare Menge zu reduzieren muB zwischen zwei Artcn von Zustanden unter- 

45 schieden werden: 

1. Zustandsinformationen des Maschinenmodells (MACHINE-STATE). Diese Zustandsinformationen sind nur in- 
nerhalb der Abarbeitung eines bestimmten Modules giiltig und werden auch nur lokal in den Sequenzem und Da- 
tenfluBeinheiten dieses bestimmten Modules verwendet. D. h. diese MACHINE-STATEs reprasentieren die Zu- 

50 stande, die in Prozessoren nach dem Stand der Tfechnik verdeckt innerhalb der Hardware ablaufen, implizit in den 

Befehlen und den Verarbeitungsschritten sind und nach Ablauf eines Befehles keine weitere Information fiir nach- 
folgende Befehle beinhalten. Derartige Zustande brauchen nicht gesichert zu werden. Bedingung dafiir ist, daB In- 
t^rupts nur nach kompletter Ausftihrung aller gerade aktiven Module durchgeAihrt werden. Stehen Interrupts zur 
Ausfiihrung an, werden kdne neuen Module geladen, sondem nur noch aktive abgearbeitet; ebenfalls werden den 

55 aktiven Module, soweit es der Algorithmus zulaBt keine neuen Operanden mdir zugefuhrt. Daduich wird ein Mo- 

dul zu einer atomaren nicht unterbrechbaren Einheit, veigleichbar mit einer Instruktion eines Prozessors nach dem 
Stand der Technik. 

2. Zustande der Datenverarbeitung (DATA-STATE). Die datenbezogenen Zustande mussen beim Auftreten eines 
Interrupts entsprechend den Prozessormodellen nach dem Stand der Tbchnik gesicherl und in den Speicher ge- 

60 schrieben werden. Das sind bestimmte notwendige Register und Rags oder - entsprechend der Begriffe der VPU- 
Ibchnologie - Trigger. 

[0039] Bei den DATA-STATEs kann die Handhabung je nach Algorithmus weiter vereinfacht werden. Zwei grundle- 
gende Strategien werden im Folgenden nahors erlautert: 

65 

1. Mitlaufen der Zustandsinformation 
[0040] Dabei werden alle relevanten und zu einem spSt^CT Zeitpunkt bendtigten Zustandsinformationen von einem 
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Modul zum nachsten iibertragen, wie es in Pipelines oflmals standardmaBig implementiert ist. Die Zustandsinformatio- 
nen weiden dann zusammen mit den Daten implizit in einem Speicher abgelegt, sodaB die Zustande bei einem Abruf der 
Daten zugleich zur Verfugung stehen. Bin explizites Handbaben der Zustandsinfonnationen i. b. mittels PUSH und POP 
entfallt daduich, was je nach Algorithmus einerseits zu einer wesentlichen Beschleunigung der Abarbeitung und ande- 
rerseiis zu einer vereinfachten Programmierung fuhrt S 
[0041] Die Zustandsinformaton kann wahlweise entweder mit dem jeweiligen Datenpaket gespeicbert werden, oder 
Dur im Falle eines Interrupts gesichert und besonders gekennzeichoet werden. 

2. Sichem der Reentry Adresse 

10 

[0042] Bei der Verarbeitung von groBen Datenmengen, die in einem Speicher abgelegt sind, ist kann es sinnvoli sein 
die Adresse mindestens einer der Operanden des gerade verarbeiteten Datenpaketes mit dem Datenpaket zusammen 
durch die PAEs zu lei ten. Dabei wird die Adresse nicht modifiziert sondem steht beim Schreiben des Datenpaketes in ein 
RAM als Pointer auf den letzten verarbeiteten Operanden zur Verfugung. 

[0043] Dieser Pointer kami wahlweise entweder mil dem jeweiligen Datenpaket gespeicbert werden, oder nur im Falle 15 
eines Interrupts gesichert und besonders gekennzeichnet werden. Insbesondere, wenn samtlicbe Pointer auf die Operan- 
den durch eine Adresse (oder eine Gruppe von Adressen) berechnet werden konnra ist es sinnvoU nur eine Adresse (oder 
eine Gruppe von Adressen) zu sichem. 

•'UIJW"-"UCISC"-ModeU 20 

[0044] Fiir das Verstandnis dieses (einem Prozessor nach dem Stand der Technik sehr ahlichen) Modells ist eine Erwei- 
terung der Betrachtungsweise der Architektur von VPUs erforderlich. Dabei dient das Virtual-Machine Modell als 
Grundlage. 

[0045] Das Array aus PAEs (PA) wird als in ihrer Architektur konfigurierbare Recheneinheit betrachtet. Der/die CT(s) 25 
stellen eine Ladeeinbeit (LOAD-UNIT) fiir Opcodes dar. Die IOAG(s) iibemehmra das Businterface und/oder den Re- 
gistersatz. 

[0046] Diese Anordnung ermoglicbt zwei grundsatzliche Funktionsweisen, die im Betrieb gemiscbt verwendbar sind: 

1. Fine Gruppe von PAEs (das kann auch eine PAE sdn) wird zur Ausflihrung eines komplexen Befehls oder Be- 30 
fehlsfolge konfiguriert und danach werden die auf diesen Befehl bezogenen Daten (das kann auch ein einziges Da- 
tenwort sein) verarbeitet Danach wird diese Gruppe umkonfiguriert, zur Abarbeitung des nachsten Befehles. Dabei 
kann sich die GroBe und Anordnung der Gruppe andem. GemaB den bereits besprochenen Partitionierungslechno- 
logien obliegt es dem Compiler, moglichst optimale Gruppen zu schaffen. Durch den CT werden Gruppen als Be- 
fehle auf den Baustein "geladen", dadurch ist des Verfahren mit dem bekannten VLIW vergleichbar, nur daB erheb- 35 
lich mehr Rechenwerke verwaltet werden UND die Vemetzungsstruktur zwischen den Rechenwerken ebenfalls 
vom Instruktionswort abgedeckt werden kann (Ultra Large Instruction Word = "UUW"). Dadurch laBt sich ein sehr 
hohei Insmiktion Level Parallelism QLP) erreichen. (siehe auch Fig. 27). Ein InsUiiktionswort entspricht dabei ei- 
nem Modul. Mehrere Module konnen gleichzeitig verarbeitet werden, sofem es die Abhangigkeit der Daten zulaBt 
und genugend Ressourcen auf dem Baustein firei sind. Vf^ic bei VLIW-Befehlen wird fur gewohnlich nach Ausfuh- 40 
ren des Instruktionsworles sofort das nachste Instruktionswort geladen. Zur zeitlichen Optimierung isl es dabei 
moglich das nachste Instruktionswort bereits wahrend der Ausfuhrung vorzulad^i (vgL Fig, 10). Bei mehreren 
moglichen nachsten InsUiiktionswdrten konnen mehrere voigeladen werden und vor der Ausftihrung wird z. B. 
durch ein Triggersignal das korrekte Instruktionswort ausgewahlt (siehe Fig. 4a B1^2, Fig. 15 ID C/ID K, Fig. 36 
A/B/Q 45 

2. Eine Gruppe von PAEs (das kann auch eine PA6 sein) wird zur Ausflihrung einer haufig gebraucbten Befehls- 
folge konfiguriert Die Daten, das kann auch hier ein einzelnes Datenwort sein, werden bei Bedarf der Gruppe zu- 
gefuhrt und von der Gruppe empfangen. Diese Gruppe bleibt iiber eine Melzahl von Takten ohne Umkonfiguralion 
bestehen. Vergleichbar ist diese Anordnung mit einem spezieUen Rechenwerk in einem Prozessor nach dem Stand 

der Technik (z. B. MMX), das fur Spezialaufgaben vorgesehen ist und nur bei Bedarf verwendet wird. Durch diesen 50 
Ansatz sind Spezialbefehle entsprechend des CISC-Prinzipes generierbai; mit dem Vorteil, daB diese Befehle an- 
wendungsspezifisch geschaffen werden konnen (Ultra-CISC = "UCESC"). 



Erweiterung des RDY/ACK-Protokolls (vgl. PACT02) 55 

[0047] In PACr02 ist ein RDY/ACK-Standardprotokoll beschrieben, das die wesentlichen Anforderungen gemafi den 
Synchronisationen von DE 44 16 881 in Hinblick auf eine typische DatenfluBapplikation beschieibt Nachteil des Proto- 
koUes ist, dafi lediglich Daten gesendet und der Empfang bestatigt werden kann. Der umgekehtte Fall, indem Daten an- 
gefordert werden und das Versenden bestatigt wird (im Folgenden REQ/ACK genannt, ist zwar elektrisch mit demselben 60 
Zweidrahtprotokoll losbar, jedoch semantisch nicht erfaBt Das gilt insbesondere, wenn RE(J/ACK und RDY/ACK ge- 
miscbt betrieben weiden. 

[0048] Daher wird die klare Unlerscheidung der Protokolle eingeftihrt: 
RD Y: Daten liegen beim Versender fur den Empfanger bereit 

REQ: Daten werden vom Empfanger beim Versrado- angefordert 65 
ACK: AUgemeine Bestatigung fur erfolgten Empfang oder \fersand 

(PrinzipieU konnten auch zwischen ACK fiir ein RDY und einem ACK fur ein REQ unterschieden werden, jedoch ist in 
den Protokoilen die Semantik des ACKs fiir gewohnlich implizit). 
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Speichermodeli 

[0049] In VPUs konnen Spekher integrieit werden (einer oder mehieie), die ahnlicb einer PAE angesprochen werden. 
Es wird im folgenden ein Speichermodeli beschrieben, das gleichzeitig ein Interface zu extemer Pfcripherie und/oder ex- 

5 temem Speicher darstellL- 

[0050] Ein VPU-intemo: Speichra- mil PAE-ahnlichen Busfiinktionen kann verschiedene Spdchermodi darstellen: 

1. Standardspeicher (Random Access) 

2, Cache (als Erweiterung des Standardspeichers) 
10 3. Lookup-Tabelle 

4. FIFO 

5. UFO (Stack) 

[0051] Dem Speicher ist ein steuerbares Int^ace zugeordnet, das Speicherbereiche wahlweise wort- oder blockweise 
IS schreibt oder liest 

[0052] Dadurch ergeben sich folgende Nutzungsmdglichkeiten: 

1. Entkopplung von Datenstromen (FIFO) 

2. Schnelier ZugrifF auf selektierte Speicherbereiche eines extemen Speichers, was eine Cacheahnliche Funktion 
20 darstellt (Standardspeicher, Lookup-Tabelle) 

3. Stack mit variierbarer Hefe (IJFO) 

[0053] Dabei kann das Interface benutzt werden, es ist jedocb nicht zwingend notwendig, wenn die Daten z. B. aus- 
schliefilich lokal in der VPU vcrwendet werden und der Speicberplatz eines interoen Speicbm ausieicht 

25 

Stack Modell 

[0054] Durch V^wendung des R£Q/ACK-Protokolls und der intemen Speicher im UFO-Modus kann ein einfacher 
Stack-Prozessor aufgebaut werden. Dabei werden temporare Daten von den PAEs auf den Stack geschrieben und bei Be- 
30 darf von dem Stack geladen. Die hierfiir notwendigen Compilertechnologien sind hinreichend bekannt. Durch die van- 
ierbare Stacktiefe, die durch einen Datenaustauscb des intemen Speicher mit einem extemen Speicher eneicht wird, 
kann der Stack beliebig groB werden. 

Akkumulator Modell 

35 

[0055] Jede PAE kann eine Recheneinheil nach dem Akkumulatorprinzip darstellen. )Me aus PACT02 bekannt ist es 
mdglich die Ausgangsregister auf den Eingang der PAE riickzukoppeln. Dadurch entsteht ein Akkumulator nach dem 
Stand der Technik. In Verbindung mit dem Sequenzer nach Fig. 11 lassen sich einfache Akkumulator-Prozessoren auf- 
bauen. 

40 

Register Modell 

[0056] Durch Verwendung des REQ/ACK-Protokoils und der intemen Speicher im Standardspeich^-Modus kann ein 
einfacher Register-Prozessor aufgebaut werden. Dabei werden die Registeradressen von einer Gruppe von PAEs gene- 
45 riert, wahrend eine andere Gruppe von PAEs die Verarbeitung der Daten iibemimmt. 

Architektur des Speicho-s 

[0057] Der Speicher besitzt zwei Interface. Ein erstes, das den Speicher mit dem Array verbindet und ein zweites, das 
50 den Speicher mit einer lOEinheit verbindet. Zur Verbessemng der Zugriffszeit soUte der Speidier als Dual-Ported>RAM 
ausgestaltet sein, wodurch Schreib- und Lesezugriffen unabhangig voneinander erfolgen konnen. 
[0058] Das erste Interface ist iibliches PAE-Interface (PAEI), das den Zugang zum Bussystem des Arrays gewahrlei- 
stet, sowie die Synchronisation und Triggerverarbeitung sicherstellL TOgger kdnnen v^wendet werden und verschie- 
dene Zustande des Speichers anzuzeigen oder Aktionen im Speicher zu erzwingen, beispielsweise 

55 

1. Emptyn^ull: Beim Einsatz als FIFO wird der FIFO-Zusland "voU", "fast-voll", "leer", "fast-leer" angezeigt; 

2. Stack ovemin/underrun: Beim Einsatz als Stack werden Oberlauf und Unterlauf des Stacks signalisiert; 

3. Cache hit/miss: Im Cache-Mode wird angezeigt, ob eine Adresse im Cache gefimden wurde; 

4. Cache flush: Durch einen Trigger wird das Sdueiben des Caches in den extemen RAM erzwungen. 

60 

[0059] Dem PAE-Interface zugeordnet ist eine konfigurierbare Zustandsmaschine, die die verschiedenen Betriebsarten 
steuert. Der Zustandsmaschine ist ein Zahler zugeordnet um die Adressen im FIFO- und LIFO-Modus zu generieren. Die 
Adressen werdra iiber einen Multiplex^ an den Speicher gefiihrt, damit zusalzlich Adressen, die im Array generim wer- 
den an den Speicher gefuhrt werden konnen. 
65 [0060] Das zweate Interface dient zum AnschluB einer lO-Einheit (lOI). Die lO-Einheit ist als konfigurierbarer Kon- 
trolier mit einem extemen Interface ausgestaltet Der Kontroller liest oder schreibt wort- oder blockweise Daten in bzw. 
aus dem Speicb^. Die Daten werden mit der lO-Einhdt ausgetauscht Wdtcrhin unterstutzt der Kontroller mittels dnes 
zusatzlichen TAG-Speichers diverse Cache-Funktionen. 
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[0061] lOI und PA£I sind miteinander synchronisiert, sodafi keine Kollision der bdden Interface eintritt Die Synchro- 
nistation ist je nach Betriebsart unterschiedlicb, wahiend beispielsweise im Standardspeicher- oder Stack-Mode immer 
nur entweder das lOI oder das PA£I auf den gesamten Speicher zugreifen kann, ist im FCFO-Modus die Synchronisation 
zeilenweise» d. h. wghrend lOI auf eine Zeile x zugreift, kann das PAEI auf jede andere Zeile ungleich x gleichzeitig zu- 
greifen. 5 
[0062] Die lO-Einheit wird entsprechend der peripheren Erfordemisse ausgestallet, beispielsweise: 

1. SDRAM Kontroller 

2. RDRAM KonLroUer 

3. DSP-Bus KonUoUer 10 

4. pa Kontroller 

5. Serieller KontroUer (z. B. NGIO) 

6. Spezial Purpose Kontroller (SCSI, Ethernet, USB, etc.) 

[0063] Eine VPU kann beliebige Speicherelemenle mit beliebigen lO-Enheiten besitzen. Dabd konnen unterschiedli- 15 
che IO-£inheiten auf einer VPU implementiert sein. 

Funktionsweise 

1. Standaidspeicher 20 
1.1 intem/lokal 

[0064] liber das PAEI werden Daten und Adiessen mit Speicher ausgetauscht. Die adiessierbare SpeicheigroBe ist 
durch die Speichergiofie beschrankt 25 

1.2 extern/memory mapped window 

[0065] liber das PAEI werden Daten und Adressen mit dem Speicher ausgetauscht. Im Kontroller des lOI ist eine Ba- 
sisadresse im exlemen Speicher angegeben. Der Kontroller liest blockweise Daten von der extemen Speicheradresse und 30 
schreibt sie in den Speicher, wobei die intemen und extemen Adressen jeweils inkremenliert (oder dekrementiert) wer- 
den; so lange, bis der gesamte interne Speicher iibertragen wurde oder eine voreingestellte Grenze erreicht wurde. Das 
Array arbeitet mit den lokalen Daten, bis diese vom Kontroller wieder in den extemen Speicher geschrieben werden. Das 
Schreiben verlauft analog dem beschriebenen Lesevorgang. 

[0066] Das Lesen und Schreiben durch den Kontroller kann 35 

a) durch Trigger angestoBen werden oder 

b) durch einen Zugriff des Arrays auf eine nicht lokal 

gespeichale Adresse. Greift das Array auf eine deranige Adresse zu, wird zunachst der interne Speicher in den externeo 40 
geschrieben und danach der Speicberfolock um die gewtinschte Adresse nachgeladen. 

[0067] Diese Betriebsart ist besonders fur die Implementierung eines Registersatzes fur einen Registeiprozessor inter- 
essanL Durch einen Trigger kaim in diesem Fall das Push/Pop des Registersatzes mit dem extemen Speicher fiir einen 
Taskwechsel oder eine Kontextumschaltung realisiert werden. 



1.3 extern/lookup table 



2. FIFO 



45 



[0068] Die Ix)okup Tabellen Funktion ist eine Vereinfachung von 1.2. Dabei werden die Daten entweder einmal oder 
mehrmals durch einen CT- Aufiruf oder einen Trigger vom extemen RAM in den intemen gelesra. Das Array liest Daten 
aus dem intemen Speicher, schreibt jedoch keine Daten in den intemen Speicher. Die Basisadresse im extemen Speicher 50 
ist im Kontroller entweder durch die CT oder das Array gespeichert und kann zur Laufzeit verandert werden. Das Laden 
aus dem extemen Speicher wird entwedo: von der CT odor durch einen IVigger aus dem Array ausgeldst und kann eben- 
falls zur Laufzeit geschehen. 

1.4 extern/cached 55 

[0069] In diesem Modus greift das Array wahlweise auf den Spdcher zu. Der Speicher arbeitet wie ein Cache-Speicher 
fur den exlemen Speicher nach dem Stand der Technik. Durch einen Triggo: aus dem Array oder durch die CT kann des 
leeren des Caches (d. h. das voUstandige Schreiben des Caches in den extmen Speicher) bervorgerufen werdoi. 



60 



[0070] Der FIFOModus wird ublicherweise verwendet, wenn Datenstrome von extern an die VPU gef\ihrt werden. 
Dann dient der FIFO als Entkopplung zwischen der extemen Dalenverarbeitung und dCT VPU-intemen Datenverarbei- 
tung, derart daB entweder von extern auf den FIFO geschrieben wird und von der VPU gelesen oder genau umgekehrt. 65 
Die Zustande des FIFOs werden durch Trigger zum Array und ggf. auch nach extern signalisiert Der FIFO selbst wird 
nach dem Stand der Technik mit untersdiiedlichen Schreib- und Lesezeigem implementiert. 
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3. Stack/intem 

[0071] Durch ein Adressregister wild ein intemer Stack aufgebaut. Bei jedem Schreibzugriff auf den Speicher durcb 
das Array wird das Register je nach Mode (a) inkrementiert (b) dekrementiert. Bei Lesezugriffen vom Array aus wird des 
5 Register umgekehri (a) dekrementiert und (b) inkrementiert Das Register stellt fiir jeden Zugriff die erforderliche 
Adresse zur Veriiigung. Der Stack ist durch die GroBe des Speichers begrenzt. Fehler (OberlauC^nterlauQ werden durch 
Trigger angezeigt. 

4. Stack/extern 

10 

10072] Sofem der interne Speicher zu klein fur den Aufbau eines Stacks ist, kann er in den extemen Speicher ausgela- 
gert werden. Dazu besteht im Kontroller ein Adresszahler fur die exteme Stackadresse. Wird eine bestimmte Menge an 
Eintragen im intemen Stack uberschritten, wird bicxrkweise eine Anzahl von Eintragen auf den extemen Stack geschrie- 
ben. Der Stack wird vom Ende her, also vom altesten Eintrag aus nach extern geschrieben, wobei eine Menge von neue- 
IS sten Einuragen nichl nach extern geschrieben wird, sondem intom verbleibL Der exteme Adresszahler (ERC) wird zei- 
lenweise modiliziert. 

[0073] Nachdem Platz im intemen Stack geschaifen wurde muB der verbleibende Stack-Inhalt an den Beginn des 
Stacks bewegt werden» die interne Stackadresse wild entsprechend angepaBt. 

[0074] Eine effizientere Variante ist des Auslegen des Stacks als Ringspeicher (vgL I^CTO4). Ein intemer Adresszah- 
20 ler wird durch das Hinzufugen oder Entferaen von Stackeintragen modifiziert. Sobald der interne Adresszahler (lAC) am 
oberen Ende des Speichers uberschreitet, zeigt er auf die untersle Adresse. Unterschreitet der lAC die unterste Adresse, 
zeigt er auf die oberste. Ein zusatzlicher Zahler (FC) zeigt den Fiillstand des Speichers an, d. h. mit jedem geschriebenen 
Wort wird der Zahler inkrementiert, mit jedem gelesenen dekrementiert. Anhand des FC ist erkennbar, wann der Spei- 
cher leer, bzw. voll ist. Diese Technologic ist von FIFOs bekannt Wird damit ein Block in den extemen Speicher ge- 
25 schrieben, reicht die Anpassung des FC um den Stack zu aktualisieren. Ein extemer Adresszahler (EAC) zeigt immer auf 
den altesten im intemen Speicher befindlichen Eintrag und befindet sich damit an demlAC entgegengesetzten Ende des 
Stacks. Der EAC wird modifiziert, wenn 

(a) Daten auf den extemen Stack geschrieben werden, dann lauft er in Richtung des lAC, 
30 (b) Daten vom extemen Slack gelesen werden, dann entfemt er sich vom lAC. 

[0075] Durch Uberwachung des FC wird sichergestellt, daB lAC und EAC nicht kollidieren. 
[007<^| Der ERC wird entsprechend der extemen Stackoperation (Auf- oder Abbau) modifizim. 

35 MMU 

[0077] Dem extemen Speicherinterface kann eine MMU zugeordnet werden, die zwei Funktionen erfullt: 

1 . Umrechnung der intemen Adressen auf exteme Adressen zur Unterstiitzung modemer Betriebsysteme 
40 2. Uberwachung der Zugriffe auf exteme Adressen, z. B. generieren eines Fehlersignales als IVigger, wenn der ex- 

teme Stack iiber- oder unterlauft 



Compiler 

45 

[0078] Das erfindungsgemSBe Ptogrammierprinzip der VPU-Technologie besteht darin, sequentiellen Kode zu sepa- 
rieren und in mdglichst viele kleine und unabhangige Teilalgorithmen zu zerlegen, wahrend die Teilalgoiithmra des Da- 
tenfluBcodes direkt auf die VPU abgebildet wird. 

50 Trennung zwischen VPU- und Standart-Kode 

[0079] Innerhalb einer Sprache nach den Stand der Stand der Technik reprasentativ fiir alle mdglichen Compiler (Pas- 
cal, Java, Fortran, etc) soli C-H- im weiteren verwendet werden, kann eine spezielle Erweitemng (VC = Vpu C) definiert 
werden, die die Sprachkonstmkte und TVpen enthalt, die besonders gut auf eine VPU-Technologie abbildbar sind. VCs 
55 durfen vom Programmierer nur innerhalb von Proceduren oder Functionen verwendet werden, die keine andaren Kon- 
strukte oder Typen verwenden. Diese P*roceduren und Functionen sind direkt auf die VPU abbildbar und laufen beson- 
ders effizient ab. Der Compiler extrahiert die VC im Praprozessor und gibt sie direkt an das VC-Backend-Rocessing 
(VCBP) wcitcr. 

60 Extraktion des parallelisierfoaren Compiler-Kodes 

[0080] Im nSchsten Schritt analysis der Compiler die restUchen C++ Codes und extrahiert die Tfeile (MC = mappabie 
C), die gut parallelisierbar und ohne den Einsatz von Sequenzera auf die VPU-Technologie abbildbar sind. Jedes ein- 
zelne MC wird in ein virtuelles Array plaziert und geroutet. Danach wird der Platzbedarf, sowie die zu erwartende Per- 
65 formance analysiert. Dazu wird das VCBP aufgerufen und die einzelnra MC werden zusammen mit den VC, die in je- 
dem Fall abgebildet werden, partitioniert. 

[0081] Die MCs, deren VPU-Implementierung den hochsten Leistungs-Zuwachs erzielen werden uberooramen, die 
restlichen werden als C++ an die nachste Compilerstufe weiteigereicht. 
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Optimierender Sequenzer Generator 
[0082] Diese Compilersiufe ist je nach Architektur des VPU-Systems unterschiedlich implementieibar 

1 . VPU ohne Sequenzer und externer Ptozessor 5 
[0083] Samtliche verbleibenden C++ Kodes weiden fUr den extemen Prozessor compiliert. 

2. Nur VPU mil Sequenzer 

10 

2.1 Sequenzer in den PAEs 

[0084] Ssimdiche verbleibenden C++ Kodes werden fiir die Sequenzer der PAEs compiliert. 

2.2 Konfigurierbare Sequenzer im Array IS 

[0085] Der verbleibende C++ Code wild fur jedes unabhangige Modul analysiert. Die jeweils am beslen geeignete Se- 
quenzer- Variante wird aus einer Datenbank ausgewahlt und als VC-Code (SVC) abgelegt. Dieser Schritl ist meist itera- 
tiv, d. h. eine Sequenzer- Variante wird ausgewahlt, der Code wird compiliert, analysiert und mit dem compilierten Code 
anderer Sequenzer- Varianten verglichen. Letztlich wird der Objectcode (S VCO) des C++ Codes fur den gewahlten SVC 20 
generiert. 

2,3 sowohl 2.1 als auch 2.2 werden verwendet 

[0086] Die Funktionsweise entspricht der von 2.2. Fur die Sequenzer in den PAEs bestehen besondere statische Se^ 2S 
quenzer-Modelle in der Datenbank. 

3. VPU mit Sequenzer und externer Prozessor 

[0087] Auch diese Funktionsweise entspricht 2.2. Fiir den extemen Prozessor existieren besondere statische Sequen- 30 
zer-Modelle in d& Datenbank. 

Linker 

[0088] Der Linker verbindet die einzelnen Module (VC, MC, SVC und SVCO) zu einem ausfuhrbaren Programm. 35 
Dazu verwendet er das VCBP um die einzelnen Module zu piazieren, zu routen und die zeitiiche Partitionierung festzu- 
legen. Der Linker fugt ebenfalls die Koinmunikalionsstrukiuren zwischen den einzelnen Modulen binzu und fiigt gege- 
benenfalls Register und Speicher ein. Aufgrund einer Analyse der KonU'ollsUiikturen und Abhangigkeiten der einzelnen 
Module werden Strukturen zum Speichem der intemen Zustande des Arrays und der Sequenzer fiir den Fall einer Recon- 
figuration hinzugetugt. 40 

Bemerkungen zu den Prozessormodellen 

[0089] Die verwendeten Maschinenmodell konnen innerhalb einer VPU beliebig kombinien werden. Auch innerhalb 
eines Algorithmus kann je nach dem, welches Modell optimal ist, zwischen den Modellen gewechselt w^den. 45 
[0090] Wird einem Register-Prozessor ein weiterer Speicher zugefugt, von dem die Operanden gelesen werden und in 
den die Ergebnisse geschrieben werden, kann eine Load/Store-Prozessor aufgebaut werden. Dabei konnen mehrere ver- 
schiedene Speicher zugeordnet werden, indem die einzelnen Operanden und das Etgebnis getrennt behandelt wird. 
[0091] Diese Speicher arbeiten dann quasi als Load/Store-Einheit und stellen eine Art Cache fur den externen Speicher 
dar. Die Adressen werden durch von der Datenverarbeitung separierte PAEs berechnet. so 

Pointer Reordering 

[0092] Hochsprachen wie C/C++ verwenden haufig Pointer, die sehr schlecht durch Pipelines gehandhabt werden kon- 
nca, Wenn ein Pointer erst direkt vor dem Verwenden der Datenstrukturen auf die er zdgt, berechnet wird, kann hauiig 55 
die Pipeline nicht schnell genug gefullt werden und die Verarbeitung wird speziell in VPUs ineffizient 
[0093] Sicherlich ist es sinnvoU bei der Programmierung von VPUs mdglichst keine Pointer zu verwenden, jedoch ist 
das oftmals nicht mdglich. 

[0094] Die Losung ist, die Pointerstrukturen durch den Compiler so umzusortieren, daB die Poinleradressen mdglichst 
lange vor deien Verwendimg berechnet werden. Gleichzeitig soUte es mdglichst wenig direkte Abhangigkeiten zwischen 60 
einem Pointer imd den Daten auf die er zeigt geben. 

Erweiterungen der PAEs (gegenuber P196 5 075.9 und P196 54 846.2) 

[0095] Durch P196 51 075.9 und P196 54 846.2 ist der Stand der Ibchnik in Bezug auf die Konfigurationseigenschaf- 65 
ten von Zellen (PAEs) definiert. 

[0096] Dabei soil auf zwei Eigenschaften eingegangen werden: 
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1. Einer PAE (0903) ist gemaB PI 96 51 075.9 ein Satz von Konfigurationsregistern (0904) zugeordnet, der eine 
Konfiguradon beinhallel (Fig. 9a). 

2. Eine Gruppe von PAEs (0902) kann gemaB P196 54 846.2 auf einen Speicher zum Speichem odcr Lesen von 
Daten zugreifen (Fig. 9b) 

5 

[0097] Aufgabe ist es, 

a) ein Verfahren zu schafifen, das das Umkonfigurieren von PAEs beschleunigt und zeitlich von der iibergeonlneten 
Ladeeinheit entkoppelt, und 

10 b) das Verfahren so auszulegen, daB gleichzeitig die Moglichkeil geschafifen wird iiber mehrere Konfigurationen zu 

sequenzen, und 

c) gleichzeitig mehrere Konfigurationen in einer PAE zu halten, von denen immer eine aktiviert ist und zwischen 
verscbiedenen Konfigurationen schnell gewechselt werden kann. 

15 

EntkoppluDg der Konfiguradonsregister 

[0098] Das Konfiguradonsregister wird von der iibeigeordneten Ladeeinheit (CT) entkoppelt (Fig. 10), indem ein Satz 
von mehreren Konfigurationsregistern (1001) verwendet wird. Immer genau eines der Konfiguradonsregister besdmmt 
20 selektiv die Funkdon der PAE. Die Auswahl des akdven Registers wird iiber einen Multiplexer (1002) durchgefuhrt. In 
jedes der Konfigurationsregister kann die CT beliebig schreiben, sofem dieses nicht die aktuelle Konfiguradon der R\E 
besdmmt, d. h. aktiv ist. Das Schreiben auf das aktive Register ist prinzipiell mdglich, dazu stehen die in IWCTIO be- 
schriebenen Verfahren zur Verfugung. 

[0099] Wdches Konfiguradonsregister von 1002 selektim wird kann durch verschiedene (^ellen besdmmt werden: 

25 

1 . Ein beliebiges Status-Signal oder eine Gruppe beliebiger Status-Signale, die uber ein Bussystem (0802) an 1002 
gefiihrt werden (Fig. 10a). Die Siatus-Signale werden dabei von beliebigen PAEs generiert oder durch externe An- 
schliisse des Bausteins zur Verfugung gestellt (vgl Fig. 8) 

2. Das Status-Signal der PA£» die von 1001/1002 konfiguriert wird, dient zur Selekdon (Fig. 10b). 
30 3. Ein von der iibergeordneten CT generiertes Signal dient zur Selekdon (Fig. 10c). 

[0100] Dabei ist es moglich wahlweise die eingehenden Signale (1003) mittels eines Registers fur einen besdnunten 
Zeitraum zu speichem und altemadv und wahlweise abzurufen. 

[0101] Durch den Einsatz mehrere Register wird die CT zeitlich entkoppelt Das bedeutet, die CT kann mehrere Kon- 

35 figuradonen "vorladen", ohne dafi eine direkte zeitliche Abhangigkeit besteht. 

[0102] Ledigiich wenn das selekderte/akdvierte Register in 1001 noch nicht geladen ist, wird mit der Konfiguradon 
der PAE so lange gewarlet, bis die CT das Register geladen hat. Um festzustellen, ob ein Register eine gultige Informa- 
tion besitzt kann beispielsweise ein "Valid-Bit" (1004) pro Register eingefuhrt werden, das von der CT gesetzt wird. Ist 
0906 bei einem selektierten Register nicht gesetzt, wird iiber ein Signal die CT zum schnellstmoglichen Konfigurieren 

4U des Registers aufgefordert. 

[0103] Das in Fig. 10 beschriebene Verfahren ist einfach zu einem Sequenzer erweiterbar (Fig. 11). Dazu wird ein Se- 
quenzer mit Instruktionsdekoder (1101) zur Ansteuerung der Selektionssignale des Multiplexers (1002) verwendet. Der 
Sequenzer besdmmt dabei abhSngig von der aktuell selektierten Konfiguration (1102) und einer zus^tzlichen Statusin- 
formation (1103/1104) die nachste zu selektierende Konfiguration. Die die Statusinformation kann 

45 

(a) der Status der Status-Signal der PAE, die von 1001/1002 konfigunert wird sein (Fig. 11a) 

(b) ein beliebiges ub^ 0802 zugeflihrtes Statussignal sein (Fig. lib) 

(c) eine Kombination aus (a) und (b) sein. 

50 [0104] 1001 kann auch als Speicher ausgestaltet sein, wobei anstatl 1002 ein Befehl von 1101 adressiert wird. Die 
Adressierung ist dabei abhangig vom Befehl selbst und von einem Statusregister. Insoweit entspricht der Aufbau einer 
"von Neumann** Maschine, mit dem Unterschied, 

(a) der universellen Einsetzbarkeit, also den Sequenzer nicht zu verwenden (vgl. Fig. 10) 
55 (b) dafi das Statussignal nicht von dem dem Sequenzer zugeordneten Rechenwerk (PAE) generiert werden muB, 
sondem von einem beleibigen anderen Rechenwerk stammen kann (vgl. Fig. lib). 

[0105] \^^chtig ist, daB der Sequenzer Sprtinge, insbesondere auch bedingte Spriinge, innerhalb von 1001 ausfuhren 
kann. 

60 [0106] Ein weiteres zusStzliches oder alternatives Verfahren (Fig. 12) zum Aufbau von Sequenzem innerhalb von 
VPUs ist die Verwendung der intemen Datenspeicher (1201, 0901) zum Speichem der Konfiguralionsinformadon fur 
eine PAE oder eine Gruppe von PAEs. Dabei wird der Datenausgang eines Speichers auf einen Konfiguradonseingang 
Oder Dateneingang eina: PAE oder mehrer PAEs geschaltet (1202). Die Adresse (1203) fiir 1201 kann dabei von dersel- 
ben PAE/denselben PAEs oder einer oder mehreren beliebigen anderen generiert werden. 

65 [0107] Bei diesem Verfahrrai ist der Sequenzer nicht fest implemendert, sondem wird durch eine PAE oder eine 
Gruppe von PAEs nachgebildet Die intemen Speicher konnen Programme aus den extemen Speichem nachladen (vgl. 
erfindungsgemaBes Speichersystem). 

[0108] Zur Speicherung von lokalen Daten (z. B. fiir iterative Berechnungen imd als Register fur einen Sequenzer) 
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wild die PAE mit einem zusatzlichen Registersatz versehen, dessen einzelne Register entweder duich die Konfiguration 
bestimmt, zur ALU gefuhrt oder von dcr ALU beschrieben werden; oder durch den Befehlssatz eines implementierten 
Sequenzeis frei benutzt werden konnen (Register Mode). Ebenfalls kann eines der Register als Akkumulator (Akkumu- 
lator Mode) verwendet werden. Wud die PAE als vollwertige Maschine verwendet, ist es sinnvoU eines der Register als 
Adresszahler fur exteme Datenadressen zu verwendcn. 5 
[0109] Zur Verwaltung von Stacks und Akkumulatoren auBerhalb der PAE (z. B . in den erfindungsgemaBen Speichem) 
wird das bereits beschriebene RDY/ACK REQ/ACK Synchronistionsmodell verwendet 

[OHO] PAEs nach dem Stand der Technik (vgl. PACT02) sind zur Verarbeitung von bit-weisen Operationen schlecht 
geeignet, sofem die integrierte ALU bit-Opa^onen nicht besonders unterstutzt, bzw. schmai 2-, 4-bit breit) ausge- 
legt ist. Die Verarbeitung von einzelnen Bits oder Signalen kann effizient gewahrleistet, indem der ALU-Kern durch ei- 10 
nen FPGA-Kem (LC) ersetzt wird, der konfigurierbar logische Operationen durchfuhrt Der LC ist dabei in seiner Funk- 
tion und intemen Vemetzung frei konfigurierbar. Es konnen LC nach dem Stand der Technik eingesetzt werden. Fiir be- 
stinimte Operationen ist es sinnvoU dem LC intern einen Speicher zuzuordnen. Die Interface-Baugruppen zwischen FC 
und dem Bussystem des Arrays werden nur geringiugig an den FC angepaBt, bleiben aber grundlegend bestehen. Zur fle- 
xibleren GestaUung des Zeitverhaltens des FC ist es jedoch sinnvoll, die Register in den Interface-Baugruppen abschalt- 15 
bar zu gestalten. 

Figuren 

[0111] In Fig. 4a sind einige grundlegenden Eigenschaften des erfindungsgemaBen \ferfahrens dargestellt: 20 
[0112] Die Module des TVpes A sind zu einer Gruppe zusammengefaBt und besitzen am Ende einen bedingten Sprung, 
entweder nach Bl oder B2. An dieser Position (0401) ist ein Umkonfigurationspunkt eingefugt, da es sinnvoll ist die 
Zweige des bedingten Sprunges als jeweils eine Gruppe zu betracbten (Fall 1). Wiirden dagegen beide Zweige von B (Bl 
und B2) zusatzlich zusaimnen mit A auf den Zielbaustein passen (Fall 2), ware es sinnvoll nur einen Umkonfigurations- 
punkt bei 0402 einzufugen, da dadurch die Zahl der Konfigurationen verringert wird und sich die Verarbeitungsge- 25 
schwindigkeit erhohL Beide Zweige (Bl und B2) springen bei 0402 nach C. 

[0113] Die Konfiguration der Zellen auf dem Zielbaustein ist in Fig. 4b schematisch dargestellt Dabei werden die 
Funktionen der einzelnen Graphenknoten auf die Zellen des Zielbausteins abgebildet. Jeweils eine Zeile steUt eine Kon- 
figuration dar. Die gestiichelten Pfeile bei einem Zeilenwecbsel zeigen eine Umkonfiguration an. Sn ist eine datenspei- 
chemde Zelle, von beliebiger Ausgestaltung (Register; Speicher, etc.). Dabei ist SqI ein Speicher, der Daten entgegen- 30 
nimmt und SqG ein Speicher der Daten ausgibt Der Speicher Sq ist fur gldcbe n jewdls d«:selbe, I und O kennzeichnen 
die Datentransferrichtung. 

[0114] Bdde Falle des bedingten Sprunges (Fall 1, Fall 2) sind dargestellt. 

[0115] Das Model! in Fig. 4 entspricht einem DatenfluBmodell, jedoch mit der wesentlichen Erweiterung des Umkon- 
figurationspunkts und der damit erreichbaren Partitionierung des Graphen, wobei die zwischen den Partitionen ubertra- 35 
genen Daten zwischengespeichert werden. 

[0116] Im Modell von Fig. 5a wird aus einer beliebigen Graphenmenge und -Konstellation (0501) selekliv ein Graph 
Bq aus einer Menge von Graphen B aufgerufen. Nach der Ausfiihrung von B gelangen die Daten nach 0501 zunick. 
[0117] Wird in 0501 ein ausreichend groBer Sequencer (A) implementiert, ist mit dem Modell ein den typischen Pro- 
zessoren sehr ahnliches Prinzip implementierbar. Dabei gelangen 40 

1 . Daten in den Sequenzer A, die dieser als Befehle dekodiert und entsprechend dem "von Neumann'-Prinzip dar- 
auf reagiert; 

2. Daten in den Sequenzer A, die als Daten betrachtet werden und an ein fest konfiguriertes Rechenwerk C zur Be- 
rechnung weitergeleitet werden. 45 

[0118] Der Graph B stellt selektierbar ein besondexes Rechenwerke und/oder besondere Opcodes fiir bestimmte Funk- 
tionen zur Verfugung und wird altemativ zur Beschleunigung von C verwendet Beispielsweise kann Bl ein optimierter 
Algorithmus zu Berechnung von Matrixmultiplikationen sein, wahrend B2 einen FIR-Filter und B3 eine Mustererken- 
nung darstellt. Entsprechrad eines Opcodes der von 0501 dekodiert wird, wird der geeignete bzw. entspiechende Graph SO 
B aufgerufen. 

[0119] Fig. 5b schematisiert die Abbildung auf die einzelnen Zellen, wobei in 0502 der pipelineartige Rechenwerks- 
Character symbolisiert wird. 

[0120] Wahrend in den Umkonfigurationspunkten von Fig* 4 vorzugsweise groBere Speicher zum Zwischenspeichem 
der Daten eingefiigt werden, ist eine einfache Synchronisation der Daten in den Umkonfigurationspunkten von Fig. 5 55 
ausreichend, da der Datenstrom vorzugsweise als ganzer durch den Graphen B lauft und der Graph B nicht weit^ parti- 
tioniert ist; dadurch ist das Zwischenspeichem der Daten QberflOssig. 

[0121] In Fig. 6a sind verschiedene Schleifen dargestellt Schleifen kdnnen grundsatzlich auf drei Arten behandelt 
werden: 

60 

1 . Hardware-Ansatz; Schleifen werden vollstandig ausgewalzt auf die Zielhardware abgebildet (0601a/b). Wie be- 
reits erlautert ist dies nur bei wenigen Schleifenarlen moglich. 

2. DatenfluB-Ansatz: Innerhalb des DatenfluBes werden Schleifen iiber mehreie Zellen hinweg aufgebaut 
(0602a/b). Das Ende der Schleife wird auf den Schldfenanfang ruckgekoppelt. 

3. Sequenzer- Ansatz: Ein Sequenzer mit minimalem Befehlssatz fuhrt die Schleife aus (0603a^). Dabei sind die 65 
Zellen der Zielbausteine so ausgestaltet, daB sie den entsprechenden Sequenzer beeinhalten (vgl. Fig. lla/b). 

[0122] Durch eine geeignete Zerlegung von Schleifen kann deren Ausfiihrung ggf. optimiert werden: 
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1 . Unter Verwendung von Optiraierungsmethoden nach dem Stand der Tfechnik laBt sich haufig der Schleifen- 
rumpf, also der wiederholt auszufuhrende Teil, dadurch optimieren, daB bestimmte Operalionen aus der Schleife 
entfemt werden und vor oder hinter die Schleife geslelll werden (0604aA>). Dadurch wird die Menge der zu sequen- 
cenden Befehle erheblich reduziert. Die entfemten Operalionen werden nur einmal vor bzw. nach Ausfiihrung der 

5 Schleife durchlaufen. 

2. Eine weitere Optimierungsmoglichkeit ist das Teilen von Schleifen in mehrere kleioere oder kurzere Schleifen. 
Dabei findet die Teilung derait stall, daB mehrere parallele od& mehrere sequentielle (0605a/b) Schleifen entstehen. 

[0123] Fig, 7 verdeutlicht die Inq)lementierung einer Rekursion. Dabei werden dieselben Ressourcen (0701) in Form 
10 von Zellen Hir jede Rekursionsebene (1-3) verwendel. Die Eigebnisse einer jeden Rekursionsebene (1-3) werden beim 
Aufbau (0711:) in einen nach dem Stack-Prinzip aufgebauten Speicher (0702) geschrieben. Gleichzeitig mit dem Abbau 
(0712:) der Ebenen wild der Stack abgebauL 

[0124] In Fig. 14 wird das Virtual-Machine-Modell daigestellt. Aus einem extemra Speich^ werden Dalen (1401) und 
zu den Daten gehorende Zustande (1402) in eine VPU (1403) gelesen. 

15 [0125] 1401/1402 werdra iiber eine von der VPU generierte Adresse 1404 selektiert. Innerhalb der VPU sind PAEs zu 
unterschiedlichen Gruppen zusammengefaBt (1405, 1406, 1407). Jede Gnippe besitzt einen datenverarbeitenden Tfeil 
(1408), der lokale impilzite Zustande (1409) besilzt, die keinen EinfluB auf die umliegenden Gruppen besitzt. Daher wer- 
den dessen Zustande nicht auBerhalb der Gruppe weitergeleitet. Er kann jedoch von den extemen Zustanden abhanglg 
sein. Ein weitarer Teil (1410) generiert Zustande, die EinfluB auf die umliegenden Gruppen haben. 

20 [0126] Die Daten und Zustande der Ergebnisse werden in einen weiteren Speicher (1411, 1412) abgelegt. Gleichzeitig 
kann die Adresse von Operanden (14004) als Pointer gespeichert (1413) werden. Zur zeidiche Synchronisation kann 
1404 iiber Register (1414) geftihrt weiden. 

[0127] In Fig. 14 ist zur Verdeutlichung ein einfaches Modell daigestellt. Die Vemetzung und Gruppierung kann we- 
sentlich komplex^ sein als in diesem Modell. Ebenfalls konnen Zustande und Daten auch an weiteie Module als den 
25 Nachfolgenden iibertragen weiden. £s ist mdglicb, daB Daten an andere Module ubertragen werden als die Zustande. So- 
wohl Daten als auch Zustande eines bestinunten Moduls kdnnen von mehreren unterschiedlichen Modulen empf angen 
werden. Innerhalb einer Gruppe kann 1408, 1409 und 1410 vorhanden sein. Abhangig vom Algorithmus kdnnen auch 
einzelne Teile fehlen (z. B. 1410 und 1409 vorhanden, 1410 jedoch nicht). 

[0128] In Fig. 15 ist dargestellt wie aus einem Verarbeitungsgraphen Teilapplikationen exU^ert werden. Dabei wird 
30 der Graph so zerlegt, daB lange Graphen sinnvoll zeiteilt werden und in Tfeilapplikalionen (H, A, C, K) abgebildet wer- 
den. Nach Spriingen werden neue Teilgraphen gebildet (C, K) wobei fiir jeden Spiung ein getrennter Teilgraph gebildet 
wird. 

[0129] Jeder Teilgraph ist in dem UUW-ModeU von der CT (vgl. PACTIO) geUennt ladbar. Wesendich ist, daB Teil- 
graphen durch die Mechanismen in PACTTIO verwaltet werden konnen. Dazu gehort insbesondere das intelligente Kon- 
35 figurieren, Ausfiihren/Starten und Loschen der Tfeilapplikationen. 

[0130] 1503 bewirkt das Laden oder Konfigurieren von Teilapplikation A, wahrend Teilapplikation K ausgefuhrt wird. 
Dadurch ist 

a) Teilapplikation A zum Ausfijhningsende von Teilapplikation K bereits komplett in die PAEs konfiguriert, sofem 
40 die PAEs mehrere Konfigurationsregister aufweisen; 

b) Teilapplikation A zum Ausfuhrungsende von Teilapplikation K bereits in die CT geladen, sofem die PAEs nur 
ein Konfigurationsregister aufweisen. 

[0131] 1504 starlet die Ausfiihrung von Teilapplikation K. 
45 [0132] D. h. zur Laufzeit werden die nachsten benotigten Programmteile wahrend der Abarbeitung der aktuellen Pro- 
grammteile unabhangig geladen. Dadurch eigibt sich ein wesentlich effizienterer Umgang mit den Ptogrammcode, als 
bei iiblichen Cache-Mechanismen. 

[0133] Bei Teilapplikationen A wird eine weitere Besonderhcit daigestellt Prinzipiell ware es denkbar beide mogli- 
chen Zweige (C, K) des Vergleiches vorzukonfigurieren. Angenonunen, die Zahl der zur Verfiigung stehenden freien 

50 Konfigurationsregister rddit dazu nicht aus, wird dec wahrschdnlichere der Zweige konfiguriert (1506). Das spart zu- 
dem ^onfigurationszeit Bei Ausfuhning des nicht konfigurierten Zweigs, wird (da die Konfiguration noch nicht in die 
' Konfigurationsregister geladen ist) die Riogrammausfuhrung unterbrocben, bis der Zweig konfiguriert ist 
[0134] Grundsatziich ist es m5glich auch nicht konfigurierte Teilapplikationen auszufiihren (1505), diese mussen dann 
wie zuvor beschrieben vor der Ausfuhning geladen werden. 

55 [0135] Ein FETCH-Befehl kann von einem Trigger mittels einer eigenen ID angestoBen werden. Damit konnen Tei- 
lapplikationen abhangig vom Ziistand des Arrays vorgeladen werden. 
[0136] Das ULIW-Modell unterscheidet sich im Wesentlichen vom VUW-Modell, indem es 

1 . Das Routing der Daten mil beinhaltet 
60 2. GroBerc Instruktionsworter bildet. 

[0137] Ebenfalls kann das beschnebene Verfahren der Partitionierung von Compilem fur heutige Standardprozessoren 
nach dem RlSC/OSC-Prinzip ebenso eingesetzt werden. \^ird dann eine Einheit (CT) nach PACTIO zur Steumng des 
Befehls-Caches verwendet, kann dieser erheblich optimiert und beschleunigt werden. 
65 [0138] Dazu werden "normale" Programme entspiechend in Ibilappiikationen partitioniert Gem^ PACTIO werden 
Verweise auf mogliche nachfolgende Tfeilapplikationen eingefiihrt (1501, 1502). Dadurch kann eine CT die Teilapplika- 
tionen bereits in den Cache vorladen bevor sic bendtigt werdra. Bei Spriingen wird nur die angesprungen Teilapplikation 
ausgeftihrt, die andere (n) werden spater durch neue Teilapplikationen Qberschrieben. Neben dem intelligenten \brladen 
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hat das Verfahren den weiteren Vorteil, daB die Grofie der Teilapplikationen beim Laden bereits bekannt ist Dadurch 
konnen optimale Bursts beim Zugriff auf die Speicher von der CT ausgefiihrt weiden, was den Speicherzugrifif wiedemm 
erfaeblich beschleunigL 

[0139] Fig. 1 6 zeigt den Aufbau eines Stack-Ftozessors. Buich das PAE-Array (1601) werdra Protokolle generiert um 
auf einen als LIFO konfigurierten Speicher (1602) zu schreiben oder zu lesen. Dabei wicd ein RDY/ACK-Protokoll zum S 
Schieiben und REQ/ACK-PtotokoU zum Lesen verwendet. Die Vemetzung und Betriebsmodi werden von der CT (1603) 

konfiguriert. 1602 kann dabei seinen Inhalt auf den extemen Speicher (1604) auslagem. 

[0140] Eine Reihe der PAEs sollen in diesem Beispiel als Register-Prozessor arbeiten (Pig. 17). Jede PAE bestehl aus 
einem Rechenwerk (1701) und einem Akkumuiator (1702) auf den das Ergebnis von 1701 riickgekoppelt (1703) isL Da- 
mit stellt in diesem Beispiel jede PAE einen Akkumulator-Prozessor dar. Eine PAE (1705) liest und schreibl die Daten in lO 
den als Standardspeicher konfigurierten RAM (1704). Eine weitere PAE (1706) generiert die Registeradressen. 
[0141] Oftmals ist es sinnvoU eine getrennt PAE zum Lesen der Daten zu verwenden. Dann wiirde 1705 nur schreiben 
und die PAE 1707 lesen. Dabei wild eine weiteie PA£ (1708, gestrichelt unterlegt) zum Genedeien der Leseadressen ein- 
zufuhren. 

[0142] Es ist nicht zwingend notwendig getrennte PAEs zum Generieren der Adressen zu verwendet Oftmals sind die is 
Register implizit und konnen dann als Konstanten konfiguriert werden von den datenverarbeitenden B^Es gesendet wer- 
den. 

[0143] Die Verwendung von Akkumulator-Prozessoren for einen Register-Ptozessor ist beispielshafl. Ebraso konnen 
zum Aufbau von Registerprozessoren PAEs ohne Akkumuiator verwendet werden. Die in Fig. 17 gezeigte Architektur 

kann zur Ansteuerung von Registern als auch zum Ansteuem einer Ix)ad/Store-Einheit dienen. 20 
[0144] Bei der Verwendung als Load/Store- Einheit ist es fast zwingend notwendig einen extemen RAM (1709) nacb- 
zuschalten, sodaB 1704 nur einen temporaren Ausschnitt aus 1709, quasi als Cache, darstellt. 

[0145] Auch bei der Verwendung von 1704 als Register-Bank ist es teilweise sinnvoll einen extemen Speicher nach- 
zuschalten. Dadurch konnen PUSH/POP Operationen nach dem Stand der Ibchnik durchgefuhrt werden, die den Regs- 
sterinhalt in einen Speicher schreiben oder aus diesem Lesen. 25 
[0146] In Fig. 18 ist als Beispiel eine komplexe Maschine abgebildet bei der das R\E-Array (1801) einerseits einen 
Load/Store-Einheit (1802) mit nachgeschaltetem RAM (1803) ansteuert und gleichzeitig eine Register-Bank (1804) mit 
nachgeschaltetem RAM (1805) aufweist. 1802 und 1804 konnen jeweils von einer PAE oder einer beliebigen Gruppe 
von PAEs angesteuert werden. Die Einheit wird gemafi dem VPU-Prinzip von einer CT (1806) gesteuert 
[0147] Wichtig ist, daB zwischen der Load/Store^Einheit (1802) und der Registo'-Bank (1804) und deren Ansteuerung 30 
kein wesentlicher Unterschied besteht. 

[0148] Die Fig. 19, 20, 21 zeigen einen erfindungsgemafien intemen Speicher, der zugleich eine Kommunikationsein- 

heit mit extemen Speichem und/oder Peripherie darstellL Die einzelnen Hguren zeigen unterschiedliche Betriebsarten 

desselben Speichers. Die Betriebsarten, sowie einzebie Detaileinstellungen werden dabei konfiguriert. 

[0149] Fig. 1 9a zeigt einen erfindungsgemafien Speicher im "Register/Cache" Modus. Im erfindungsgemafien Speicher 35 

(1901) sind Datenworte eines ftir gewohnlich grbfieren und langsameren extemen Speichers (1902) abgelegt. 

[0150] Der Datenaustausch zwischen 1901, 1902 und den iiber einen Bus (1903) angeschlossenen I^Es (nicht darge- 

stellt) findet dabei wie folgt statt, wobei unter zwei Betriebsarten unterschieden wird: 

A) Die von den PAEs von dem Ilauptspeichcr 1902 gelesenen oder gesendeten Daten werden in 1901 mittels eines 40 
Cache- Verfahrens gepuffert. Dabei kann jedes bekannte Cache- Verfahren zum Einsatz kommen. 

B) MiUels einer Load/Store-Einheit werden die Daten bestinmiter Adressen zwischen 1902 und 1901 ubertragen. 
Dabei werden bestimmte Adressen, sowohl in 1902 als auch in 1901 vorgegeben, wobd fiir 1902 und 1901 gewohn- 
licherweise unterschiedliche Adressen verwendet werden. Die einzelnen Adressen konnen dabei durch Konstante 
oder durch Berechnungen in PAEs erzeugt werden. In dieser Betriebsart arbeitet der Speicher 1901 als Register- 45 
bank. 



[0151] Die Zuordnung der Adressen zwischen 1901 und 1902 kann dabd beliebig sdn und hangt lediglich von den je- 

weiligen Algorilhmen der beiden Betriebsarten ab. 

[0152] In 19b ist die entsprechende Maschine als Blockdiagramm dargestellt Dem Bus zwischen 1901 und 1902 ist 50 
eine Steuereinheit (1904) zugeordnet, die je nach Betriebsart als Load/Store-Einheit (nach dem Stand der Tfechnik) oder 
als Cache-Kontroller (nach den Stand der Technik) agiert. Dieser Einheit kann bei Bedarf eine Speicherverwaltungsein- 
heit (MMU) (1905) mit Adressubersetzung und -uberpriifung zugeordnet werden. Sowohl 1904 als auch 1905 kann von 
den PAEs angesteuert werden. So wird beispielsweise die MMU programmiert, die Load/Store Adressen gesetzt oder ein 
Cache-Rush ausgelost. 55 
[0153] Fig. 20 zeigt den Einsatz des Speichers (2001) im FIFO-Modus, in welchem nach dem bekannten FIFO-Prinzip 
Datenstrome entkoppelt werden. Der typische Einsatz ist in einem Schreib-(2001a) oder Leseinterface (2001b). Dabei 
werden Datra zwischen den PAEs, die an dem interaen Bussystem (2002) angescblossen sind und dem Peripheriebus 
(2003) zeitlich entkoppelt. 

[0154] Zur Steuerung des FIFOs ist eine Hnheit (2004) vorgesehen, die den Schreib- und Lesezeiger des FIFOs abhan- 60 
gig von den Busoperationen von 2003 und 2002 steuert 

[0155] In F^. 21 ist das Arbeitsprinzip der erfindungsgemafira Speicher im Stack-Modus dargestellt. Ein Stack ist 
(nach dem Stand der Technik) ein Stapelspeicher, dessen oberstes/unterstes Element das gerade Aktive isL Daten werden 
inuner oben/unten angefugt, ebenso werden die Daten oben/unten entferaL D. h. das zuletzt geschriebene Datum ist auch 
das, welches zuerst gelesen wird (Last In First Out). Ob ein Stadc nach oben oder unten wachst, ist unbedeutend und im- 65 
plementierungsabhangig. Im folgenden Ausfuhrungsbeispiel weiden Stacks betrachlet, die nach oben wachsen. 
[0156] Dabei sind die aktuellsten Daten im interaen Speicher 2101 gehalten, der aktueUste Eintrag (2107) befindet sich 
ganz oben in 2101. Alte Eintrage sind auf den extemen Speicher 2102 ausgelagert Wachst d^ Stack weiter, reicht der 
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Plate im inlemen Speicher 2101 nicht mehr aus, Bei Erreichen einer bestimmten Datenmenge, die durch cine (frei wahl- 
bare) Adresse in 2101 oder einen (frei wahlbaren) Wert in einem Eintragszahler leprasentiert sein kann, wild ein IbiL von 
2101 als Block an das aktuellere Ende (2103) des Slacks in 2102 geschrieben. Dieser Teil sind die allesten und somit am 
wenigsten aktuellen Daten (2104). Danach weiden die v^bleibenden Daten in 2101 so verschoben, daB die nach 2102 
5 kopierten Daten in 2101 mit den verbleibenden Daten (2105) iiberschrieben werden und somit geniigend freier Speicher 
(2106) fiir neue Stackeintrage enlsteht. 

10157] Nimmt der Stack ab, werden ab einem gewissen (frei wahlbaren) Punkt die Daten in 2101 so verschoben, daB 
hinier den altestwi und unaktuellsten Daten freier Speicher entsteht. In den freigewordenen Speicher wird ein Speicher- 
block aus 2102 kopiert, der dann in 2102 geloscht wird. 

10 [0158] Mit anderen Worten reprasenlieren 2101 und 2102 einen einzigen Stack, wobei die gerade aktuellen Eintrage in 
2101 liegen und die alteren und weniger aktuellen in 2102 ausgelagert sind. Quasi stellt das Verfahren einen C^ache fur 
Stacks dar. Da die Datenbldcke vorzugsweise per Blockoperationen iibertragen werden, kann der Datentransfer zwischen 
2101 und 2102 in den schnelien Burst-Betriebsarten modemer Speicher (SDRAM, RAMBUS, etc.) ausgefiihrt werden. 
[0159] Es soil nochmals erwahnt werden, daB im Ausfiihrungsbeispiel in Fig, 21 der Stack nach oben wachst SoUte 

IS der Stack nach unten wachsen (eine haufig verwendete Methode), sind die Positionen oben/unten und die Richtungen in 
die die Daten innerhalb eines Speichers bewegt werden genau vertauscht. 

[0160] Sinnvollerweise wird der interne Stack 2101 als eine Art Ringspeicher ausgestalteL IXe Daten an einem Ende 
des Ringes werden zwischen PAEs und 2101 iibertragen und am anderen Ende des Ringes zwischen 2101 und 2102. Da- 
durch entsteht der Vorteil, daB einfach Daten zwischen 2010 und 2102 verschoben werden konnen, ohne EinfluB auf die 

20 intemen Adressen in 2101 zu haben. l^iglich die Positionszeiger der unteren und oberen Daten und der Fiillstandszah- 
ler mussen jeweils angepaBt werden. Die Dateniibertragung zwischen 2101 und 2102 kann durch die bekannten Ring- 
speicher-Flags "beinahe voU (almost full)/ voll (full)" und "beinahe leer (almost empty)/lea- (empty)" ausgelost werden. 
[0161] Die notwendige Hardware ist als Blockschaltbild in Fig, 21b dargestellt. Dem intemen Stack 2101 ist eine Ein- 
heit (2110) zur Verwaltung der Zeiger und Zahler zugeordneL In den Bus (2114) zwischen 2101 und 2102 ist eine Einheit 

25 (2111) zur Steuerung der Datentransfers eingeschleifl. Dieser Einheit kann eine MMU (2112) nach dem Stand der Tech- 
nik mit den entsprechenden PrOfsystemen und Adressiibersetzungen zugeordnet werden. 
[0162] Die Verbindung zwischen den PAEs und 2101 wird iiber das Bussystem 2113 realisiert 
[0163] In Fig. 22 ist ein Beispiel fiir das Umsortieren von Graphen gezeigt. Die Hnke Spalte (22. .a) zeigt eine unopti- 
mierte Anordnung von Befehlen. Dabei werden die Pointer A (^07a) und B (2211a) geladen. Jeweils bereits einen Takt 

30 spater werden die Werte der Pointer benotigt (2208a, 2212a). Diese Abhangigkeit ist zu kurz um effizient ausgefuhrt zu 
werden, da zum Laden aus dem Speicher eine bestimmte Zeit (2220a, 2221a) benotigt wird. Durch umsorti^en der Be- 
fehle (22. .b) werden die Zeitraume maximal vergroBert (2220b, 2221b). Obwohl in 2210 und in 2208 der Wert des Poin- 
ters von A benotigt wird, wird 2208 nach 2210 einsortiert, da dadurch mehr Zeit zur Berechnung von B gewonnen wird. 
Es ist moghch Berechnungen die von den Pointem unabhangig sind (2203, 2204, 2206) beispielsweise zwischen 2211 

35 und 2212 einzufugen um mehr Zeit fur die Speicherzugriflfe zu erhalten. Ein Compiler oder Assembler kann hier anhand 
von Systemparameiem, die die 2^grifiFzeiten reprasentieren, die entsprechende Optimierung vomehmen. 
[0164] Fig. 23 zeigt einen Sonderfall der Fig. 4-7. Haufig besteht ein Algorithmus, auch innerhalb von Schleifen, aus 
DatenfiuBteilen und sequenliellen Teilen. Derartige SUnkturen konnen gemaB dem beschriebenen Verfahren unter Ein- 
satz des in PACT07 beschriebenen Bussystems efhzient aufgebaut werden. Hierzu wird das RDY/ACK-ProtokoU des 

40 Bussystems zunachst um das erfindungsgemaBe REC^^ACJK-ProtokoU erweitert. Dadurch konnen gcziclt Registerinhalte 
einzebier PAEs von einer oder mehreren anderen PAEs oder von d^ CT abgefragt werden. Hne Schleife (2305) wird nun 
in mindestens zwei Graphen zerlegt, einen ersten (2301), der den DatenfluBanteil reprasentiert und einen zweiten (2302), 
der den sequentiellen Anteil abbildet. 

(0165] Ein bedingter Sprung wahli zwischen den beiden Graphen. Das besondere ist nun, daB 2302 den intemen Zu- 
45 stand von 2301 kennen zur Ausfiihning benotigt und umgekehrt 2301 den Zustand von 2302 kennen muB. 

[0166] Dies wird realisiert, indem der Zustand genau eiimial, namlich in den Registon der PAEs des p^ormanteren 
DatenfluBgraphen (2301) gespeichert wird. 

[0167] Wird in 2302 gesprungen, liest der Sequenzer bei Bedarf die Zustande der jeweiligen Register mittels des Bus- 
systems aus PACr07 aus (2303). Der Sequenzer fiihrt seine Operationen aus und schreibt alle geanderten Zustande in die 

50 Register (wiederum uber das Bussystem nach PACT07) zuriick (2304). AbschlieBend soli angemerkt werden, daB es sich 
bei den besprochenen Graphen nicht unbedingtumenge Schleifen (2305) handeln muB. Das Verfahren ist generell auf je- 
den Teilalgorithmus verwendbar, der innerhalb eines Programmablaufes mehrfach ausgefuhrt wird (reentrant) und wahl- 
weise entweder sequentiell oder parallel (datenfluBartig) abgearbeitet wird, wobei die Zustande zwischen dem sequen- 
tiellen und dem parallelen Teil transferiert werden mussen. 

55 [0168] Die Waveiekonfigurierung bietet erheblidie Vorteile bei der Geschwindigkeit der Umkonfiguration, insbeson- 
dm bei einfachen sequentiellen Operationen. 

[0169] Eine grundlegende Besonderheit dieser >^rarbeitungsmethode ist, daB der Sequenzer auch als extemen Mikro- 
prozessor ausgestaltet sein kann. Das bedeutet, daB ein Prozessor tiber die Datenkanale mit dem Array verbunden ist und 
lokale, temporare Daten Uber Bussysteme mit dem Array austauscht. Samtliche sequentielle Tfcile eines Algorithmus die 
60 nicht in das Array aus PAEs abgebildet werden konnen werden auf dem Prozessor abgewickelt 
[0170] Es muB zwischen drei Bussystemem unterschieden werden: 

1 . Datenbus, der den Austausch dw verarbeiteden Daten zwischen VPU und Prozessor regelt 

2. Registerbus, der den Zugriff auf die Register der VPU ermoglicht und den somit den Datenaustausch (2302, 
65 2304) zwischen 2302 und 2301 gewahrleistet. 

3. Konfigivalionsdatenbus, der das Array der VI'U konfiguriert. 

[0171] In Fig. 24 sind die Auswirkungen zeitlicb daigestellL 
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[0172] Einfach schraffierte Flachen stellen datenveraibeitende PAEs dar, wobei 2401 PA£s nach der Umkonfiguration 
uikI 2403 PAEs vor der I Jmkonfigiiration zeigen. Doppelt schrafiieite Flachen (2402) zeigen PAEs die gerade umkonfi- 
gurierl werden oder auf die Umkonfiguration warlen. 

[0173] Fig. 24a zeigt den EinfluB der Wave-Rekonfigurierung auf einen einfachen sequentiellen Algorithmus. Hier isl 

es mogliche exakt die PAEs umzukonfigurieren, denen eine neue Aufgabe zugeteilt wird. Da in jedem Tbkt eine PAEeine 5 

neue Aufgabe erbalt kann dies effizient, namlich zeitgleich durchgefilhrt werden. 

[0174] Beispielsweise dargestellt ist eine Reihe von PAEs aus der Matrix aller PAEs einer VPU. Angegeben sind die 
Zustande in den Takten nach Takt t mil jeweils einem Takt Verzogerung. 

[0175] In Fig. 24b ist die zeilliche Auswirkung der Umkonfiguration von groBen Teiien dargestellt. Beispielsweise dar- 
gestellt ist eine Menge von PAEs einer VPU. Angegeben sind die Zustande in den Takten nach Takt t mit einer unter- 10 
schiedlichen Verzogerung von jeweils mehreren Takten. 

[0176] Wahrend zunachst nur ein kleiner Teil der PAEs umkonfiguriert wird oder auf die Umkonfiguration wartet, wild 
diese FlSche mit zunehmender Zeit groBei; bis alle PAEs umkonfiguriert sind. Das groBer werden der Flache bedeutet, 
daB, bedingt durch die zeitliche Verzogerung der Umkonfiguration immer mehr PAEs auf die Umkonfiguration warten 
(2402). Dadurch geht Rechenleistung verloren. is 
[0177] Es wird daher vorgeschlagen ein breiteres Bussystem zwischen der CT (insbesondere des Speichers der CT) 
und den PAEs einzusetzen, das geniigend Leitungen zur Verfiigung stellt, urn innerhalb eines T^ktes mehrere PAEs zu- 
gleich umzukonfigurieren. 

[0178] Fig. 25 verdeutlicht die Skalierbarkeil der VPU-Technologie. Die Skalierbarkeit geht im Wesentlichen aus dem 
Ausrollen eines Graphens hervor, ohne daB eine zeitliche Abfolge einzelne Teilapplikationen trennt. Als Beispiel ist der 20 
Algorithmus aus Fig. 4 gewahlt. In Fig. 25a werden die einzelnen Teilgraphen zeitlich nacheinander auf die VPU uber- 
tragen, wobei entweder Bl oder B2 geladen wird. In Fig. 25b werden alle Teilgraphen auf cine Menge von VPUs iiber- 
tragen und mit Bussystemen untereinander verbunden. Dadurch konnen groBe Datenmengen ohne den negativen EinfluB 
des Umkonfigurierens leistungsfahig abgearbeitet werden. 

[0179] Fig. 26 zeigt eine Schaltung zur Beschleunigung der (Urn-) konfigurationszeit von PAEs. Gleichzeitig kann die 25 
Schaltung zur Veraibeitung von sequentiellen Algorithmen verwendet werden. Das Array von B\Es (2605) ist in meh- 
rere Teile (2603) partidoniert. Jedem Teil ist eine eigenstandige Einheit zur (Um-)konfiguration (2602) zugeordnet Die- 
sen Einheiten ubeigeordnet ist eine CT (2601) nach dem Stand der Tbchnik (vgl. PACTIO), die wiederum an dne weitere 
CT Oder an einen Speicher angeschlossen ist (2604). Die CT lad die Algorithmen in die Konfigurationseinheiten (2602). 
Die 2602 laden selbstandig die Konfigurationsdalen in die ihnen zugeordneten PAEs. 30 
[0180] In Fig. 27 ist ein Aufbau einer Konfigurationseinheit daigestellL Kem der Einheit ist ein Sequenzer (2701) der 
eine Reihe von Befehlen beherrscht. 
[0181] Die wesentlichen Befehle sind: 

wait <trg#> Warten auf das Eintreffen eines bestimmten Triggers aus dem Array, der angibl, welche nachste Konfigura- 
tion geladen werden soil. 35 
lookup <trg#> Gibt die Adresse des durch einen eintreffenden Trigger aufgerufenen Unterprogiamms zuriick. 
jmp <adr> Sprung nach Adresse 

call <adr> Sprung nach Adresse. Riickspningadresse wird auf dem Stack gespeichert 
jmp <cond> <adr> Bedingter Sprung nach Adresse 

call <cond> <adr> Bedingter Sprung nach Adresse. Riicksprungadresse wird auf dem Stack gespeichert 40 
ret Riicksprung auf die auf dem Stack gespeicberte Riicksprungadresse 

mov <taiget> <source> Obertragt ein Datenwozt von Quelle (source) an ein Ziel (taiget). Quelle und Ziel konnen jeweils 
in einem Speicher oder eine Peripherieadresse sein. 

[0182] Im wesentlichen sind die Befehle aus PACTIO, d. h. der Beschreibung der CT bekannt. Wesentlicher Unter- 
schied in der Implementierung der 2602 ist, daB nur sehr einfache Befehle zur Datenverwaltung verwendet werden und 45 
kein vollstandiger MikrokontroUer verwendet wird. 

[0183] Eine bedeutende Erweiterung des Befehlssalzes ist der "pabm"-Befehl zum Konfigurier^i der PAEs. Es stehen 
zwei Befehle (pabmr, pabmm) zur Verfiigung, die folgendermassen aufgebaut sind: 
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[0184] Die Befehle kopieren dnen zugeordneten Block von PAE-Adressen und PAE-Daten vom Speicher zu dem 
PAE- Array. Durch <count> isl angegeben, wie groB der zu kopierende Datenblock ist. Der Datenblock ist entweder di- 
45 rekt an den Opcode angehangt (a) oder durch Angabc der erste Speicheradiesse <meinref> referenziert (b). 

[0185] Jede pa_adrD-pa_dtan-Zeile stellt eine Konfiguration fUr eine PAE dar. Dabei gibt pa.adrn, die Adresse und 
pa_dtan das Konfigurationswort der PAE an. 

[0186] Aus PACTIO ist das RDY/ACK-REJ Protokoll bekannt, Werden die Konfigurationsdaten von einer PAE ange- 
nommen, quitliert die PAE die gesendeten Daten mil einem ACK. Kann dagegen eine PAE die Konfigurationsdaten nicht 
50 annehmen, da sie sich nicht in einem umkonfigurierbaien Zustand befindet, sendet sie ein REJ zurUck. Dadurch schlagt 
die Konfiguration des Teilalgorithmus fehL 

[0187] Die Stelle mil REJ zuriickgewiesenen pa_adrn-pa_dtan-Zeile wird gespeichert Die Befehle werden zu einem 
spatercn Zeitpunkt emeut aufgerufen (vgl. PACTIO, FELMO). Sofem der Befehl kompiett abgearbeitet wurde, d. h. es 
trat kein REJ auf, fiihrt der Befehl keine weitere Konfiguration durch sondem terminiert sofort Trsi ein REJ auf , spring! 
55 d&[ Befehl direkt an die Stelle der zuruckgewiesenen pa_adrn-pa_dt^-Zeile, Je nach Befehl wird die Stelle unterschied- 
lich gespeichert: 

pabmr. Die Adresse wird in dem mit <regno> genannten Register gespeichert. 
pabmm: Die Adresse wird direkt im Befehl an der Speicherstelle <offset> gepeichcrt 

[0188] Die Befehle sind duich DMA-Strukluren als Speicher/IO-Transfere nach dem Stand der Technik implementier- 
60 bar. Die DMAs werden durch eine Logik zum uberwachen der eingehenden ACK/REJ erweitert Die Startadresse wird 
durch <regno>, bzw. <ofPset> bestimmt. Die letzte Adresse des Datenblocks wird durch die Adresse des Befehls plus 
dessen Opcode-Lange minus eins plus die Anzahl der pa_adrn-pa_dtaii-Zeilen berechnet. 
[0189] Es ist sinnvoll auch die in PACTIO beschridiene Schaltung durch die genannten Befdile zu erweitem. 
[0190] Fig. 27 zeigt den Aufbau einer Einheit 2602. Die Einheit bestehl aus einem Registersatz 2701 dem eine einfache 
65 ALU fiir Stackoperationen zugeordnet ist (2702). Die Struktur enthalt Adressregister und Stackpointer. Optional kann 
eine vollwertige ALU eingesetzt werden. Ein Bussystem (2703) mit minimaler Breite verbindet Register und ALU. Die 
Brdte ist dabei so bemesseo, daB einfache KontrollfluBbefehle bzw. einfache ALU-Operationen sinn voU daigestellt wer- 
den konnen. Zusatzlicb werden die vorab beschriebenen PABM-Befehle, sowie die Befehle nach PACTIO unterstiitzt. 
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Register und ALU werden von einem Sequenzer 2706 gesteuert, der durch Ausfuhrung von Befehlen einen voUstandigen 
Miciocontroller darstellt An 2703 ist eine Einheit 2704 angeschlossen, die lYigger von den zugeoidneten PAEs entge- 
gennimint und quittiert und gegebenenfalls ihrerseits TVigger an die PAEs sendet. 

[0191] Eingehende Trigger losen dabei in dem Sequenzer 2706 einen Intmupt aus oder weiden durch den WATT-Be- 
fehl abgefragt Optional an 2703 angeschlossen ist ein Interface (2705) zu einem Datenbus der zugeordneten PAEs um 5 
Daten an die PAEs senden zu konnen. Beispielsweise werden die Assemblercodes eines in den PAEs implementierten 
Sequenzers iiber 2705 gesendet. Das Interface enthalt sofem erforderlich einen Konverter zur Anpassung der unter- 
schiedlichen Busbreiten. Die Einheiten 2701 bis 2706 sind uber einen Multiplexer/Demultiplexer (2707) an ein um ein 
Vielfaches breiteres Bussystem (2708) angeschlossen, das zum Speicher (270^) fuhrt. 2707 wird von den niederwertigen 
Adressen des Adress-ZStackregisters angesteuert, die hoherwertigen Adressen fiihren direkt zum RAM (2711). Das Bus- 10 
system 2708 fiihrt zu einem Interface (2709), das durch die PA-Befehle gesteuert wird und zum Konfigurationsbus der 
PAEs fiihrL 2708 ist bewuBt breit ausgelegt um moglichst viele Konfigurationsbits pro T^kteinheit iiber 2709 an die PAEs 
senden zu konnen. Ein weiteres Interface (2710) verbindet den Bus mit einer iibergeordneten CT, die Konfigurations- 
und Steuerdaten mit 2602 austauscht. Die Interface 2710 und 2709 bereits mehrfach in PACTIO, PACT?? beschrieben 
werden. 15 
[0192] Wesendich ist, daB 2706 einen leduzierten und auf die Aufgabe opdmierten Minimalsbefehlssatz behearscht, 
der vor allem auf die PA-Kominandos, Spriinge, Interrupts und Lookup-Befehle optiniiert ist Weiterfain ist das opti- 
mieite breite Bussystem 2708, das iiber 2707 auf ein schmales Bussystem iibertragen wird von bescxiderer Bedeutung fur 
die Umkonfigurationsgeschwindigkeit der Einheit. 

[0193] Fig, 27a ist eine spezielle Ausgestaltung von Fig, 27. Das Interface 2705 dient der Obertragung von Assemb- 20 
iercodes an im PAE- Array konfigurierte Sequenzen Die Verarbeitungsleistung der Sequenzo" hangt wesentlich von der 
Geschwindigkeit des Interfaces 2705 und dessen Speicherzugriffes ab. In Fig, 27a ist 2705 durch eine DMA-Funktion 
mit direktem Speicherzugriff (2720n) ersetzL 2720d ftihrt eigene Speicherzugriffe aus und besitzt ein eigenes Bussystem 
(2722o) mit entspiechender Anpassung der Busbreite (2721n); dabei kann der Bus zum Laden von breiten Befehlsse- 
quenzen (ULIW) verhaltnismaBig breit ausfalien, sodafi als Grenzfall 2721 □ komplett entfallt. Zur weiteren Sleigerung 25 
der Geschwindigkeit ist der Speichea: 2711 physikalisch in 2711a und 2711bn getrennt worden. Der Adressraima iiber 
2711a und 2711bn verfoleibt linear, jedoch kann von 2701, 2702, 2706 auf beide Speicherblocke unabhangig gleichzeitig 
zugegriffen werden; 2720^ kann nur auf 2711bQ zugreifen. 2720^, 2721^, und 2711bn kann mehrfach (n) implementiert 
sein, damit mehrere Sequenzer gleichzeitig verwaltet waxlen konnen. Dazu kann 2711bn nochmal in mehrere physika- 
lisch unabhangige Speich^bereiche unterteilt w^den. In Fig. 38 ist sind Implementierungsbeispiele fur 2720n beschrie- 30 
ben. 

[0194] In Fig, 28 wird der Aufbau von komplexen Programmen verdeutlicht. Die Basismodule der Programme sind die 
Komplex-Konfigurationen (2801) die die Konfigurationen einer oder mehrere PAEs und der dazugehorenden Bus- und 
Triggerkonfigurationen beinhalten. Die 2801 werden durch einen Opcode (2802) reprasentiert, der zusatzliche Parameter 
(2»03) besitzen kann. Diese Parameter konnen einerseits konstante Datenwerte, variable Startwerte oder auch spezielle 35 
Konfigurationen beinhalten. Es existieren je nach Funktion ein, mehrere oder auch kein Parameter 
[0195] Mehrere Opcodes greifen auf einen gemeinsamen Salz von Komplex-Konfigurationen zuriick und bilden damit 
eine Opcode-Gruppe (2805). Die unterschiedlichen Opcodes einer Gruppe unterscheiden sich durch besondere Ausge- 
staltungen der Komplex-Konfigurationen. Dazu werden Differenzierungen (2807) verwendet, die entweder zusatzliche 
Konfigurationsworte enthalten, oder in 2801 vorkouuiieode Konfigurationswortc iiberschreiben. 40 
[0196] Eine Komplex-Konfiguration wird, sofem keine Differenzierung erforderlich ist, direkt von einem Opcode auf- 
gerufen (2806). Ein ^ogramm (2804) setzt sich aus einer Abfolge von Opcodes mil den jeweiligen Parametem zusam- 
men. 

[015^] Eine komplexe Funktion kann einmal t n das Array geladen werden und kann danach durch unterschiedliche Pa- 
rameter oder Differenzierungen neu umkonfiguriert weiden. Dabei werden nur die sich andemden Ibile der Konfigura- 45 
tion umkonfiguriert. Unterschiedliche Opcode-Gnippen gieifen auf unterschiedliche Komplex-Konfigurationen zuriick. 
(2805a, . . ., 2805n). 

[0198] Die unterschiedlichen Ebenen (Komplex-Konfiguration, Differenzierung, Opcode, Programm) werden in ver- 
schiedenen Ebenen von CTs abgearbeitet (vgl. CT Hierarchien in PACTIO). Die unterschiedlichen Ebenen sind in 2810 
dargestellt, wobei 1 die niederste und N die hochste Ebene darstellt Clb konnen zu beliebig tiefen Hierarchien aufgebaut SO 
werden (vgl. PACTIO). 

[0199] Es wird in 2801 unVa zwei Arten von Codes unterschieden: 

1 . Konfigurationsworte, die einen Algorithmus auf das Array aus PAEs abbilden. Der Algorithmus kann dabei auch 

als Sequenzer ausgestaltet sein. Die Konfiguration erfolgt uber die Schnittstelle 2709. Konfigurationsw<»1e werden 55 
durch die Hardware definiert 

2. Algorithmusspezifische Codes, die von der moglichen Ausgestaltung eines Sequ^izer oder Algorithmus abh^ 
gig sind. Diese Codes w^den vom Programmierer oder Compiler definiert und dienen zur Ansteuerung eines Algo- 
rithmus. Ist beispielsweise ein Z80 als Sequenzer in die PAEs konfiguriert, stellen diese Codes den Opcode des Z80 
Mikropiozessors dar. Algorithmusspezifische Codes werden fiber 2705 an das Array aus PAEs gesendet. 60 

[0200] In Fig. 29 ist ein moglicher Grundaufbau einer PAE dargestellt. 2901 bzw. 2902 stellen die Eingangs- bzw. Aus- 
gangsregister der Daten dar. Den Registera zugeordnet ist die komplette Vemetzungslogik zum Aufschalten auf den/die 
Datenbusse (2920, 2921) des Arrays (vgl PACT02). Die TViggerleitungen gem. PACT08 werden durch 2903 vom Trig- 
gerbus (2922) abgegriflfen und mit 2904 auf den TViggerfjus (2923) aufgeschaltet. Zwischen 2901 und 2902 ist eine ALU 65 
(2905) beliebiger Ausgestaltung geschaltet. Den Datenbussen (2906, 2907) und der ALU zugeordnet ist ein Registersatz 
(291^, in welchem lokale Daten gespeichert werden. Die RDY/ACK-Syncronisationssignale der Datenbusse und THg- 
go'busse werdMj zu einer Statemachine (oder einem Sequenzer) (2910) gefuhrt (2908), bzw. von der Einheit generiert 
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(2909). 

(0201] IJber eine Interfaceeinhdt (2911) greift die CT mittels eines Bussystemes (2912) selektiv auf eine Mebrzahl 
von Konfiguralionsregistern (2913) zu. 2910 wahll iiber eincn Multiplexer (2914) jeweils eine bestimmte Konfiguration 
aus, Oder sequenzt uber eine Mehrzahl von Konfigurationsworten, die dann Befehle fur den Sequenzer darstellen. 
5 [0202] Da die VPU-Technologie hauptsachlich gepipelinet arbeitet ist es von Vorteil entweder die Gruppe 2901 und 
2903 Oder die Gruppe 2902 und 2904 oder beide Gruppen zusatzlich mit FIFOs zu verseben. Dadurch kann verhindert 
werden, daB eine Pipeline durch einfache Verzogerungen (z. B. in der Synchronisation) stockt. 

[0203] 2920 ist ein optionaler Buszugang, iiber den ein der Speicher einer CT (siehe Fig, 27, 2720) oder ein gewohni- 
cher intemer Speicher an Stelle der Konfiguralionsregisler an den Sequenzer 2910 geschaltet werden kann. Damit sind 
10 groBe sequentielle Programine in einer PAE ausfiihrbar. Der Multiplexer 2914 wird dazu so geschaltet, daB er nur den in- 
temen Speichw v«rbindet 
[0204] Die Adressen weiden 

a) fur den CT-Speicher durch die Schaltung in Figur. 38 generiert. 
15 b) fur den intemen Speicher direkt von 2910 generiCTl. 

[0205] Fig. 30 zeigt eine mogliche Erweiterung der PAE um der CT oder einetn anderen zuegschalteten Mikroprozes- 
sor einen Zugrilf auf die Datenregister zu ermoglichen. Der Adressraum und die Interface der Buseinheit (vonnals 2911, 
3003) werden um die zusatzlichen Datenbusse (3001) erweitert. Den jeweiligen Registem wird ein Multiplexer (3002) 
20 vorgeschaltet mitdes dem 3003 iiber den Bus 3001 Daten in das Register schreiben kann. Die Ausgange der Register 
werden uber 3001 zuruck an 3003 gefiihrt. 3003 ubertragt die Daten zur CT 2912. 

[0206] Altemativ (3003a) zur Ubertragung der Daten zu CT ist es moglich die Daten durch ein zusatzliches Interface 
(3004) auf einen von der CT unabhangigen Bus (3005) zu ubertragen. 

[0207] Fig. 31 zeigt die Kopplung des Arrays von PAEs (3101) mit einem iibergeordneten MikrokontroUer. 3101 be- 
2S inhaltet sind samtliche lOKanale gemaB den erfindungsgemafien Speichem. Die Architektur arbeitet gemaB Fig. 23. 
2912 in Fig. 31a stelit den Bus fiir die Konfigurationsdaten und Registeidaten gem. Fig. 30 zur Verftlgung. Der Datenbus 
wird separat durch 3104 daigestellt 3102 stellt die CT dar, die in Fig. 31a auch den Mikroprozessor darstellt. 
[0208] Fur sSmtliche Bussysteme bestehen imabhangig voneinander folgende AnschluBmodelle an einen Prozessoi; 
die je nach Programmiermodell und unter Abwagung von Preis und Performance gewahlt werden: 

30 

1. Register-Modell 

[0209] Beim Register-Modell wird der jeweilige Bus uber ein Register angesprochen, das direkt in den Registersatz 
des Prozessors integriert ist und vom Assembler als Register oder Gruppe von Registem angesprochen wird. Dieses Mo- 
ss dell ist am effizientestens wenn einige wenige Register fiir den Datenaustausch ausreichen. 

2. lO-Modell 

[0210] Der jeweilige Bus liegt im lO-Bereich des Prozessors. Dies ist meistens die einfachste und kostengunstigstc Va- 
40 riante. 

3. Shared-Memory-Modell 
4. Shared-Memory-DMA-Modell 

45 

[0211] Prozessor und Bus teilen sich wie im vorigen Modell denselben Speicher Zur weiteren Geschwindigkeilsstei- 
gerung existiert eine schnelle DMA (vgl. Fig. 38) die den Datenaustausch zwischen Bus und Speicher ubemimmt. 
[0212] Zur Steigerung der Ubertragungszeit sollten die jeweiligen Speicher physikalisch vom iibrigen Speicher trenn- 
bar sein (mehrere Speicherbanke), damit Prozessor und VPU unabhangig auf ihre Speicher zugreifen konnen. 
50 [0213] In Fig. 3 lb ubemimmt eine CT (3102) die Konfiguration des Arrays, wahrend ein dedizierter Prozessor (3103) 
uber 3006 das Programmiermodell nach Fig. 23 gewahrleistet, indem er iiber 3006 Registerdaten mit dem Array aus- 
tauscht und iiber 3104 die gewohnlichen Daten austauscht. 

[0214] Die Fig. 31c/d entspiechen den Fig. 31a/b, jedoch wurde fiir den Datenaustausch ein Shared-Memory (3105) 
zwischen dem jeweiligen Prozessor und 3101 gewahlt 

55 [0215] Fig. 32 zeigt eine Schaltung die es den erfindungsgemafien Speicherelementen eimoglicbt gemeinsam auf einen 
Speicher oder eine Gruppe vcmi Speichem zuzugieifen, wobei jeder einzehie Speicher der Gruppe einzeln und eindeutig 
adressierbar ist Dazu werden die dnzehien Spdcherelemente ^201) auf ein Bussystem geschaltet, bei dem jedes 3201 
einen eigenen Bus besitzt Der Bus kann bidirekticmal augestaltet sein oder durch zwei unidirektionale Busse realisiert 
werden. Pro Speicher exisdert ein Adress/Datenmultiplexer, der einra Bus zum Speicher durchschaltet Dazu werden die 

60 anliegenden Adressen jedes Busses dekodiert (3207) und danach jeweils ein Bus pro Zeiteinheit durch einen Arbiter 
(3208) ausgewahlt (3204). Die entsprechenden Daten und Adressen werden auf den jeweiligen Speicherbus (3205a) 
ubertragen, wobei eine Zustandsmaschine (3206) die notwendigen Protokolle generiert TVefFen bei einer Leseanforde- 
rung die Daten vom Speicher ein, wird durch die jeweilige Zustandsmaschine die Adresse des Speichers auf den Bus ge- 
schaltet, der die Daten anfragte. Die Adressen aller eingehenden Busse werden pro Bus des Bussystems 3202 durch eine 

65 Muldplexereinheit ausgewertet und auf den entsprechenden Bus ubertragen. Die Auswertung erfolgl entsprechend der 
Auswertung der Ausgangsdaten, d. h. ein Dekoder (3209) je Eingangsbus (3205b) leitet ein Signal auf einen Arbiter 
(3210), der den Daten-Muldplexer ansteuert Damit werden pro Zeiteinheit unlerschiedliche Eingangsbusse auf das Bus- 
system 3202 geleitet 
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[0216] In Fig. 33 wird zur flexibleren und einfacheren Auswertung der TVigger- und RDY/ACK-Signale die starre Sta- 
temachine / der starre Sequenzer 2910 durch einen frei programmicrbaren (3301) ersetzt. Die vollstandige Funktion von 
3301 wird durch die Konfigurationsregisler 2913 vor der Ausfuhrung von Algoridmien durch die CT beslimml. Das La- 
den von 3301 wird durch ein gegeniiber 2911 um die Verwaltung von 3301 enveilertes CT-Interface (3302) gesteueit. 
Der Vortei! von 3301 liegt darin, daB erheblich flexibler mit den unterschiedlichen THgger- und RDY/ACK-Signalen um- 5 
gegangen werden kann, als in fest implementierten 2910. Nachteilhaft wirkt sich die GroBe eines von 3301 aus. 
[0217] Ein KompromiB der zu der hochsten Rexibilitat bei vertretbarer GroBe fuhrt ist, die Trigger und RDY/ACK-Si- 
gnale durch eine Einheil gemaB 3301 auszuwerten und samdiche festen Ablaufe innerhalb der PAE durch eine fest im- 
plemenlierte Einheit nach 2910 zu steuem. 

[0218] Die erfindungsgemaBe PAE zur Verarbeitung von logischen Funktionen ist in Fig. 34 abgebildet Kern der Ein- 10 
heit ist eine nachfolgend detaillierter beschriebene Einheit zum verknupfen von einzelnen Signaled 0401). t)ber die Ob- 
lichen Register 2901, 2902, 2903, 2904 werden die Bussignale mil 3401 verbunden. Die Register werden bierzu um ei- 
nen Feed-Mode erweitert, der einzelne Signale selektiv ohne sie taktsynchron zu speichem (register) zwischen den Bus- 
sen und 3401 austauschl. Der Multiplexer (3402) und die Konfigurationsregisler (3403) werden an die unterschiedlichen 
Konfigurationen von 3401 angepaSt. Ebenso ist das CT-Interface (3404) entsprechend ausgeslaltet. 15 
[0219] Fig. 35 zeigt mogliche Ausgestaltungen von 3401. Ein globaler Datenbus verbindet die Logikzellen 3501 und 
3502 mit den Registern 2901, 2902, 2903, 2904. Durch Busschalter, die als Multiplexer, Gatter, Transmissiongales oder 
einfachen Transistoren ausgelegt sein konnen wird 3504 mit den Logikzellen verbunden. Die Logikzellen konnen entwe- 
der komplett einheitlich gestaltet sein, oder unterschiedliche Funktionalitat besitzen (3501, 3502). 3503 stellt einen 
RAM-Speicher dar. 20 
[0220] Mogliche Ausgstaltung der Logikzellen sind: 

- Lookup Tabellen 

- Logik 

- Multiplexer 25 

- Register 

[0221] Die Auswahl der Funktionen und Vemetzung kann entweder flexibel programmierbar durch SRAM-Zellen er- 
folgen oder mittels unveranderlicher ROM oder semistatischer RashROM Speicher. 

[0222] Zur Beschleunigung von sequentiellen Algorithmen, die schlecht parallelisiert werden konnen ist bei herkomm- 30 
lichen Prozessoren spekulative Ausfuhrung bereits Stand der Technik. Die parallele Van ante fiir VPUs ist in Fig. 36 dar- 
gestelli. Die Operanden (3601) werden gleichzeitig an mehrere moglichen Pfade von Teilalgorithmen (3602a, 3602b, 
3602c) gefuhrl. Die Teilagorithmen konnen dabei einen unterschiedlichen Flachen- und Zeitbedarf aufweisen. Jeweils 
nach den Teilalgorithmen werden die Daten erfindungsgemaB gespeichert (3612a, 3612b, 3612c), bevor sie nach einer 
Umkonfiguration von den nachsten Teilalgorithmen verarbeitet werden (3603). Auch die Umkonfigurationszeitpunkte 35 
der einzelnen Teilalgorithmen sind voneinander unabhangig, ebenso die Zahl der Teilalgorithm«i selbst (3603, 3614). 
Sobald entscheidbar ist, welcher der Pfade zu wahlen ist, werden die Pfade uber einen Bus oder Multiplexer zusammen- 
gefiihrt (3605). Von einer Bedingung generierte Triggersignale (vgl. PACT08) (3606) bestimmen welch^ der Pfade ge- 
wahlt und an die nachfolgenden Algorithmen weiteigeleitet wird. 

[0223] Fig. 37 zeigt den Aufbau eines HochsprachencompilM^, der gewohniiche sequentielle Kochsprachen (C, Pas- 40 
cal, Java) auf ein VPU-System ubersetzt. Sequentieller Code (3711) wird von parallelem Code (3708) getiennt, wodurch 
3708 direkt in dem Array von PAEs verarbeitet wird. 
[0224] Fiir 3711 gibt es drei Ausfuhrungsmoglichkeiten: 

1 . Innerhalb eines Sequenzers einer PAE (2910) 45 

2. Mittels eines in die VPU konfigurierten Sequenzers. Der Compiler erzeugt hierzu einerseits einen auf die Auf- 
gabe optimieiten Sequenzer, andeierseits direkt den algorithmenspezi&schen Sequenzercode (vgl. 2801). 

3. Auf einem gewohnlichen extemen Prozessor (3103) Welche M5gllchkeit gewahlt wird h9ngt von der Architek- 
tur der VPU, des Computersystems und des Algorithmus ab. 

50 

[0225] Der Code (3701) wird zunachst in einem Praprozessor (3702) in DatenfluBcode (3716) (der in einer spe:aellen 
Version der jeweiligen Programmiersprache datenfluBoptimiert geschrieben wurde) und gewohnlichen sequentiellen 
Code getrennt (3717). 3717 wird auf paralleUsieibaie Teilalgorithmen untersucht (3703), die sequentiellen Teilalgorith- 
men werden ausgesondert (3718). Die parallelisierbaren Teilalgorithmen werden als Makros vorlaufig plaziert und ge- 
routet. 55 
[0226] In einem iterativen Prozess werden die Makros mit dem datenfluBoptimierten Code (3713) zusammen plaziert, 
geroutet und partitioniert (3705). Eine Statistik (3706) wertet die einzelnen Makros, sowie deren Partitionierung hin- 
sichtlich der Effizienz aus, wobei die Umkonfigurationszeit und der Aufwand der Umkonfiguration in die Effizienzbe- 
trachlung einflieBl. Ineffiziente Makros werden entfemt und als sequentieller Code ausgesondert (3714). 
[0227] Der verbleibende parallele Code (3715) wird zusammra mit 371 6 compiliert und assembliert (3707) und VPU 60 
Objektcode ausgegeben (3708). 

[0228] Eine Statistik uber die Effizienz des generierten Codes, sowie der einzelnen (auch der mit 3714 entfmten Ma- 
kros) wird ausgegeben (3709), der IVogrammierer erfaalt daduich wesentliche Hinweise auf Geschwindigkeitsoptimie- 
rungen des Programmes. 

[0229] Jedes Makro des verbleibenden sequentiellen Codes wild auf seine Komplexitat und Anforderungen untersucht 65 
(3720). Aus einer Datenbank die von der VPU- Arch itektur imd dem Computersystem abhangt (3719) wird der jeweils 
geeignete Sequenzer ausgewahlt und als VPU-Code 0721) ausgegeben. Ein Compiler (3721) graeriert den Assembler- 
code des jeweiligen Makros fiir den jeweils von 3720 gewahlten Sequenzer und gibt ihn aus (3711). Die 3710 und 3720 
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sind eng miteinander verknupft. Gegebenenfalls verlauft die Abaibeitung iterativ umden geeignetsten Sequenzer mit mi- 
Diinalsten und schnelisten Assemblercode zu finden. 

[0230] Ein linker (3722) faBl die Assembleicodes (3708, 3711, 3721) zusammen und geneneit den ausfiihrbaien Ob- 
jektcode (3723). 

5 [0231] Fig. 38 zeigt den intemen Aufbau von 2720. Kern der Schaltung ist ein ladbarer Up/Down-Zahler (3801), der 
seinen Startwert von der Schallung Fig. 27 von dem Bus 3803 (enlspricht 2703) uber den entsprechend gesetzten Multi- 
plexer 3802 erhalt. Der Zahler dienl als Programmzahler (PC) fiir den zugeordneten Sequenzer, der Startwert ist die erste 
Adresse des auszufuhienden Programmes. Der Wert von 3801 wird tiber einen Addierer (3805) und 3802 auf den Zahler 
zunickgefiihrt t)ber den Bus 3804 wird von dem Sequenzer ein Offset an 3805 gefuhrt, der entweder vom PC abgezogen 
10 Oder hinzuaddiert wird. Damil sind relative Spriinge effizient impiemenderbar. Der PC wird iib^ den Bus 3811 an das 
PAE-Array herausgefUhrt und kann fiir call -Operationen auf dem Stack gespeichert werden. Fiir let-Operationen wird 
der PC uber 3804 und 3802 vom Stack auf 3801 gefiihit. 

[0232] tfber den Multiplexer 3806 wird entweder der PC oda: ein vom PAE- Array zugefuhrter Stackpointer (3807) auf 
einen Addierer (3808) gefuhrt. Hier wird ein Offset den Werlen abgezogen oder hinzuaddiert, der im Register 3809 ge- 
ts speichert wird und uber 3803 geschrieben wird. 3808 ermoglicht die Verschiebung des Programmes innerfaalb des Spei- 
cher 2711. Dadurch werden Garbage-CoUector Funktionen zum Aufraumen des Speichers moglich (vgl. PACTIO). Die 
Adressverschiebung die durch den Garbage-CoUector auftritt wird durch eine Anpassung des Offsets in 3809 ausgegli- 
chen. 

[0233] Fig. 38a ist eine Variante von Fig. 38 in der der Stackpointer (3820) ebenfalls integriert isL tiber 3804 wird nur 

20 noch der Offset fiir relative Spriinge an 3805 gefuhrt (3804a). Der Stackpointer ist ein UpA)own-Zahler entsprechend 
3801, dessen Startwert der den Beginn des Stack reprasentiert, und iiber 3803 geladen wird. Der PC wird direkt an den 
Datenbus zum Speicher gefuhrt um iiber einen Multiplexer bei call-Operationen auf den Stack geschrieben zu werden. 
Der Datenbus des Speichers wird iiber 3821 und 3802 auf 3801 zurUckgekoppelt, zur Durcbftihrung van ret-Operationen. 
[0234] Fig. 39 verdeutiicht die Funktionsweise der Speicher. Der Speicher (3901) wird uber einen Multiplexer (3902) 

25 adressiert. Im Standard-Modus, Lookup-Modus und Register Modus werden die Adressra aus dem Array (3903) direkt 
an 3901 gefuhrt. Im Stack-Modus und FIFO-Modus werden die Adressen in einem up/down-Zahler (3904) generierL In 
diesem Fall werden die Adressen der lO-Seite von einem weiteren up/down-Zahler (3905) zur Verfiigung gestellL Die 
Adressen fiir den externen RAM (oder 10) werden von einem weiteren up/down-Zahler (3906) generiert, die Basis- 
adresse wird von einem Register (3907) geladen. Das Register wird von der CT oder einem externen Host-Prozessor ge- 

30 selzt. Die gesamte Steuerung iibemimmt eine Statemachine (3908). Den Zustand des Speichers (voil, leer, halbvoll, etc.) 
entnimmt 3908 einem up/down-Zahler (3909) der die Anzahl der im Speicher befindUchen Worte zahlt. Wird der Spei- 
cher blockweise verandert (Stadt auf externen Stack schreiben oder von extemem Stack lesen) wird die GroBe des Blocks 
als Konstante (3917) auf einen Addierer/SubU-ahierer (3910) gegeben, auf den der Zahlerstand von 3909 zuriickgekop- 
peltist. Das Ergebnis wird nach 3909 geladen. Damit laBt sich der Zahlerstand schnell an blockweise Veranderungen an- 

35 passen. (Natiirlich ist es moghch den Zahler auch mit jedem geschriebenen oder gelesenen Wort bei einer. Blockopera- 
tion zu modifizieren). Fiir Cache-Operationen steht ein Cache-Kontroller (3911) nach dem Stand der Technik zur Verfii- 
gung, dem ein T^g-Speicher (3912) zugeordnet ist. Je nach Betriebsart wird der Wert von 3911 oder 3906 iibor einen 
Multiplexer (3913) als Adresse nach auBen gefijhrt(3914). Uber den Bus 3915 werden die Daten nach auBen gefuhrt und 
iiber den Bus 3916 werden die Daten mit dem Array ausgetauscht. 

40 

Programmierbeispiele zur Verdeutlichung von Teilalgorithmen 

[0235] Ein Modul kann beispielsweise folgendermaBen deklariert werden: 
module example! 
45 input (varl, var2 : tyi; var3 : ty2). 
ou^)ut (resl, res2 : tys). 
begin 

register <regname 1 > (res 1 ). 
50 register <regname2> (rcs2). 
terminate© (resl & res2; 1). 
end. 

module kennzeichnet den Beginn eines Modules, 
input/output definiert die Ein-/Ausgangsvariablen mit den Typen tyn. 
55 begin . . . end markieren den Rumpf des Modules. 

register <regnamel/2> ubergibt das Ergebnis an den Output, 

wobei des Ergebnis in dem durch <regnamel/2> spezifizierten Register zwischengespeichert wird. <regnamel/2> ist da- 
bei eine globale Referenz auf ein bestimrates Register. 

[0236] Als weitere Ubergabemodi an den Output stehen beispielsweise folgende Speicherarten zur Verfiigung: 
60 fifo <fifoname>, wobei die Daten an einen nach dem FIFO-Prinzip arbeitenden Speicher iibeigeben werden. <fifoname> 
ist dabei eine globale Referenz auf einen bestimmten, im FEFO-Modus arbeitenden Speichet terminate© wird dabei um 
den Parameter bzw. das Signal "fifofuir erweitert, der/das anzdgt, daB d^ Speicher voll ist. 

stack <stackname>, wobei die Daten an einen nach dem Stack-Prinzip arbeitenden Speicher ubeigd)en werden. <stack- 
name> ist dabei eine globale Referenz auf einen bestimmten, im Stack-Modus arbeitenden Speichec 
65 [0237] teiminate© unterscheidet die Progranunierung entsprechend des erfindungsgemSBen ^%Ifahrens von der her- 
kdmmlichen sequentiellen Programmiening. Der Befehl definiert das Abbruchkriterium des Modules. Die Eigebnisva- 
riablen resl und ies2 werden von terminated nicht mit ihrem tatsachlichen \^rt evaluiert, statt dessen wird nur die Giil- 
tigkeit der Variablen (also deren Statussignal) gepriift Dazu werden die beiden Signale resl und res2 boolsch miteinan- 
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der verkntipft, z. B. durch eine UND-, ODER- oder XOR-Operation. Sind beide Variablen giiltig, terminiert das Modul 

mil dem Wert 1 . Das bedeutet, ein Signal mil dem Wert 1 wild an die iibergeordneten Ladeeinheit weitergeleitet, worauf- 

hin die ubergeoidneten Ladeeinheit das nachfolgende Module ladt. 

module example2 

input (varl, var2 : ly^; var3 : ty^ 

output (resi, ty4). 

begin 

register <regnamel> (varl, vai2). 
fifo <fifonamel> (lesl, 256). 

terminate® (fifofuU (<fifonamel>); 1), 
end. 

[0258] register wird in diesem Beispiel iiber input-Daten definierl. Dabei ist <regnamel> derselbe wie in examplel. 
Dies bewirkt, dafi das Register, das die ou^ut-Daten in examplel aufhimmt, die input-Daten fCir example2 zur >^rfu- 

gung slellL 

[0239] fifo definierl einen FIFO-Speicher der Hefe 256 fur die Ausgangsdalen resl . Das Full-Flag (fifofull) des FTFO 
Speichers wird in terminate® als Abbruchkriterium verwendet 
module main 

input (inl, in2 : tyi; in3 : tya). 

output (outl : ty4). 

begin 

define <regnanfiel>: iegister(234) 
define <regname2>: register(26). 
define <fifonamel>: fifo(256,4). // FIFO Tiefe 256 

(varl 2, var72) = call examplel (inl, in2, in3). 

(outl) = call example2 (varl2, var72, var243). 

signal (outl) 
terminate® (example2). 
end. 

[0240] define definiert eine Schnittstelle for Daten (Register, Speicher, etc.). Bei der Definition werden die erforderli- 
chen Ressouicen, sowie die Bezeichnung der Schnittstelle angegeben. Da die Ressouicen Jewells nur einmal zur Verfii- 
gung stehen, miissen sie eindeutig angegeben werden. Damit ist die Definition global, d. h. die Bezeichnung gilt fiir das 
gesamte Programm. 

[0241] call ruft ein Modul als Unterprograimn auf. 

[0242] signal definiert ein Signal als Ausgangssignal, ohne daB eine Zwischenspeicherung verwendet wird. 
[0243] Durch terminate® (example2) wird das Modul main terminiert, sobald das Unterprogramm example2 termi- 
niert. 

[0244] Durch die globale Deklaration "define . . ist es prinzipiell nicht mehr notwendig, die so definierten input/out- 
put Signale in die Schnittstellen-Deklaration der Module aufzunehmen. 

Patentanspriiche 

Verfahren zum Betrieb einer umkonfigurierbaren Einheit, dadurch gekennzeichiiet, daB die (Juittierungssignale 
der konfigurierbaren Zellen zeitlich versetzt zu deren Konfiguration ausgewertet werden. 



Hierzu 44 Seite(n) Zeichnungen 
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